• Tidak ada hasil yang ditemukan

A. Kesimpulan

Penelitian ini mempelajari kegunaan fuzzy clustering dalam menemukan keterkaitan antar dokumen dalam sistem Temu Kembali Informasi berbahasa Indonesia. Kami membandingkan kinerja (akurasi, kolektifitas dan kecepatan) tiga formula representasi dokumen dan tiga algoritma fuzzy clustering: FCM, H-FCM dan FSC dan mengembangkan prototipe menggunakan formula representasi dan algoritma terbaik. Berdasarkan hasil evaluasi kinerja algoritma dan pengembangan prototipe, diperoleh beberapa butir kesimpulan sebagai berikut :

1. Dibandingkan algoritma FCM dan FSC, algoritma H-FCM merupakan algoritma yang paling cocok digunakan untuk mengelompokkan dokumen, karena algoritma H-FCM memiliki tingkat akurasi dan kolektifitas yang lebih baik.

2. Pada penelitian ini, formula Salton merupakan metode representasi dokumen terbaik dibandingkan formula Tf dan TfIdf yang gagal memberikan input yang tepat terhadap algoritma clustering.

3. Hasil cluster yang kami peroleh memiliki akurasi dan kolektifitas yang lebih baik dibandingkan dengan cluster hasil penelitian Wibisono & Khodra (2005) yang menggunakan algoritma K-Means. Hal ini secara tidak langsung mendukung penelitian Mendez & Sacks (2003) yang juga mencatat keunggulan algoritma H-FCM dibandingkan algoritma K-Means.

Oleh karena itu, kami memilih algoritma H-FCM untuk digunakan dalam pengembangan prototipe sistem.

4. Prototipe sistem memiliki kompleksitas waktu sebesar O(nc2m) dengan n = jumlah kata pada seluruh dokumen, c = jumlah cluster dan m = jumlah kolom.

5. Untuk melakukan pencarian hingga mendapatkan cluster, sistem membutuhkan waktu yang relatif lebih lama dibandingkan aplikasi web tanpa clustering. Hal ini disebabkan karena sistem membutuhkan waktu tambahan untuk melakukan proses clustering.

6. Prototipe sistem memiliki kinerja yang cukup baik dengan tingkat Akurasi = 0.85 dan Kolektifitas = 0.52.

B. Saran

Beberapa saran setelah dilakukannya penelitian dan perancangan prototipe sistem temu kembali informasi menggunakan fuzzy clustering, yaitu: 1. Penelitian dapat dikembangkan dengan data yang lebih banyak dan

kompleks dan membandingkan beberapa teknik representasi dokumen. 2. Proses clustering dapat dipercepat dengan menggunakan algoritma Porter

(Tala, 2003) untuk mereduksi jumlah kata melalui penghilangan imbuhan (stemming).

3. Dalam temu kembali informasi, hampir semua pengguna tidak mengetahui berapa jumlah cluster yang sebenarnya. Algoritma H-FCM yang memiliki akurasi dan kolektifitas yang baik, masih mengharuskan pengguna untuk memasukkan jumlah cluster. Algoritma FSC memungkinkan pengguna untuk tidak memasukkan jumlah cluster, akan tetapi FSC memiliki kinerja

yang kurang baik dalam temu kembali informasi. Oleh karena itu perlu dikembangkan algoritma clustering yang dapat menentukan sendiri jumlah clusternya dan memiliki kinerja yang baik dalam temu kembali informasi. 4. Sistem dapat diimplementasikan pada pencarian informasi pertanian.

Akurasi hasil pencarian informasi pertanian dapat ditingkatkan dengan bantuan tenaga ahli pertanian.

DAFTAR PUSTAKA

Adisantoso J. 2004. Corpus Dokumen Teks Bahasa Indonesia untuk Pengujian Efektifitas Temu Kembali Informasi. Laporan Akhir Hibah Penelitian SP4. Bogor:Dept Ilmu Komputer FMIPA IPB.

Adriani M. 2002. Evaluating Indonesian Online Resources for Cross-Language Information Retrieval. Glasgow: Department of Computing Science, University of Glasgow.

Arifin AZ. 2002. Penggunaan Digital Tree Hibrida pada Aplikasi Information Retrieval untuk Dokumen Berita. Proseding Seminar Nasional Sains dan Teknologi 2002. Lembaga Penelitian ITS.

Arifin AZ & Setiono AN. 2002. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering. Proceeding of Seminar on Intelligent Technology and Its Applications (SITIA), Teknik Elektro, ITS Surabaya.

Arifin Z & Tasai SA. 2004. Cermat Berbahasa Indonesia. Jakarta: Akapres. Ariwibowo AB. 2001. Pendekatan Multi-dimensi Dokumen dalam sistem

temu-kembali informasi menggunakan model spreading activation. Tesis. Jakarta:Fasilkom UI.

Baeza-Yates R dan Ribeiro-Neto B. 1999. Modern Information Retrieval. Addison-Wesley. New York.

Borodavkina L. 2000. Investigation of Machine Learning Tools for Document Clustering and Classification [tesis]. Massachusetts: Department of Electrical Engineering and Comp Science, MIT.

Chiu S. 1994. Fuzzy model identification based on cluster estimation. J Intelligent and Fuzzy Syst 2(3):267-278.

Cleverdon C.W, Mills J dan Keen M. 1966. Factors Determining The Performance of Indexing System. ASLIB Cranfield Project.

Dominich. 2003. PageRank: quantitative model of Interaction Information Retrieval. 12th International World Wide Web Conference WWW ’03 International Workshop on Mobile Web Technologies WF7. 20-24 May 2003, Budapest.

Fahmi I. 2004. Examining Learning Algorithm for Text Classificitation in Digital Libraries [tesis]. Groningen: Department of Alfa-Informatica, University of Groningen.

Geva AB. 1999. Hierarchical Unsupervised Fuzzy Clustering. IEEE trans on Fuzzy Syst 7(6):723-733.

Girril TR & Luk CH. 1996. Fuzzy Matching as a Retrieval-Enabled Technique for Digital Libraries. Chicago:Dept of Comp Sci California State Univ.

Grira N, Michel C. dan Boujemaa N. 2004. Unsupervised and Semi-supervised Clustering: a Brief Survey. In Review of Machine LearningTechniques for Processing Multimedia Content.

Hammouda K dan Kamel M. 2004. Document Similarity Using a Phrase Indexing Graph Model, Knowledge and Information System (2004), no 6, hal. 710-727. London:Springer Verlag.

Horng YJ, Chen SM, Chang YC dan Lee CH. 2005. A New Method for Fuzzy Information Retrieval Based on Fuzzy Hierarchical Clustering and Fuzzy Inference Techniques. IEEE Trans. on Fuzzy Syst 13(2): 216-228.

Jain A.K., Murty M.N. dan Flynn P.J. 1999. Data Clustering : A Review. ACM Computing Survey 31.

Jiawei H dan Kamber, M. 2001. Data Mining, Concepts and Techniques. Morgan Kauffman Publishers. San Fransisco, USA.

Kantardzic M. 2001. Data Mining, Concepts, Methods and Algorithm. New Jersey : IEEE.

Kusumadewi S dan Purnomo H. 2004. Logika Fuzzy untuk Pendukung Keputusan. Yogyakarta:Graha Ilmu.

Leuski A. 2001. Evaluating Document Clustering for Interactive information retrieval, Proceeding of the 10th international conference on information and knowledge management. New York: ACM.

Maarek Y.S, Fagin R, Ben-Shaul IZ dan Pelleg D. 2000. Ephemeral Document Clustering for Web Applications. Haifa:IBM Research Report RJ 10186. Marimin. 2004. Pengambilan Keputusan Kriteria Majemuk. Jakarta:Grasindo. Marimin. 2005. Teori dan Aplikasi Sistem Pakar dalam Teknologi Manajerial.

Bogor: IPB.

Mendes MES dan Sacks L. 2003. Evaluating Fuzzy Clustering for Relevance Based Information Access. Proceedings of IEEE international conference on fuzzy syst:648-653.

Michalski R, Stepp R dan Diday E. 1981. A Recent Advance in Data Analysis: Clustering objects into classes characterized by conjunctive concepts. Progress in Pattern Recognition, vol 1. L Kanal and A. Rosenfeld, Eds. Amsterdam : North-Holland Publishing Co.

Miyamoto S & Kataoka E. 2005. Algorithms for Clustering Terms in Document Set Based on Fuzzy Neighborhoods. Ibaraki:Dept of Risk Eng Univ of

Tsukuba.

Muresan, G. 2002. Using Document Clustering and Language Modelling in Mediated Information Retrieval [disertasi]. Aberdeen: School of Computing The Robert Gordon Univ.

Nascimento S, Mirkin B dan Moura-Pires F. 2003. Modeling Propotional Membership in Fuzzy Clustering. IEEE Trans on Fuzzy Syst 11(2).

Pollard KS dan van der Laan M. 2005. Cluster analysis of genomic data with applications in IR. Bekeley: Berkeley Electronic.

Pressman RS. 2001. Software Engineering, A Practitioner’s Approach. Ed ke-5. McGraww-Hill.

Salton G dan Buckley C. 1988. Term-weighting approaches in automatic text retrieval. Inf. Process. Manage. 24(5):513-523.

Sedding J & Kazakov D. 2004. WordNet-based Text Document Clustering. New York: Dept. of Comp Sci Univ of New York.

Sommervile I. 2000. Software Engineering. Ed. 6. Wokingham: AddisonWesley. Tombros A. 2002. The Effectiveness of Query-based Hierarchic Clustering of

Documents for Information Retrieval [disertasi]. Glasgow: Dept. of Computing Science Faculty of Comp Sci, Math and Stat Univ of Glasgow. Rijsbergen van CJ. 1979. Information Retrieval Ed. 2. London:Butterworth. Tala FZ. 2003. A Study of Stemming Effects on Information Retrieval in Bahasa

Indonesia [tesis]. Amsterdam:Institut for Logic, Language and Computation Universiteit van Amsterdam.

Tang B, Shepherd M dan Milios E. 2005. Comparing and Combining Reduction Techniques for Efficient Text Clustering. Halifax:Faculty of Comp Sci, Dalhousie Univ Canada.

Taylor A.G. 1999. The Organization of Information. Colorado: Libraries Unlimited.

Wibisono Y & Khodra ML. 2005. Clustering Berita Berbahasa Indonesia. Konferensi Nasional Sistem Informasi 2005, UNPAS Bandung.

Yin-Je Hong and Shyi-Min Chen. 2005. A New Method for Fuzzy Information Retrieval Based on Fuzzy Hierarchical Clustering and Fuzzy Inference Technique. IEEE Trans on Fuzzy System 13 (2):216-228.

Lampiran 1 Cara Perolehan serta Pengolahan Data dan Pengembangan Perangkat Lunak

No. Langkah Alat Sumber Data Hasil Prosedur

1 Pembuatan Program Penguji Algoritma Clustering

Matlab Beberapa situs

Internet

Algoritma Clustering Terbaik

- Kumpulkan berbagai jenis artikel (komputer, politik, ekonomi, olahraga) dari beberapa situs Internet. - Ambil paragraf utama atau paragraf pertama

- Melakukan pengelompokan menggunakan algoritma yang diuji dan membandingkan cluster hasil dengan jenis berita

- Tentukan algoritma terbaik berdasarkan kriteria uji 2 Disain & Implementasi

Basisdata

MySQL & xAmpp

Struktur Basisdata

- Membuat ERD (Entity Relationship Diagram) - Membuat tabel dan relasi pada MySQL

3. Input Dokumen MySQL, PHP,

Apache

Beberapa situs Internet

Entiti pada tabel basisdata

- Kumpulkan dokumen dari Internet

- Ekstrak atribut dokumen (judul, nama, tahun & abstrak)

- Input data ke basisdata 4. Representasi Dokumen MySQL, PHP,

Apache

Basisdata Matriks bobot kata

- Buat program yang mencatat kata & menghitung jumlahnya pada abstrak dokumen

- Hitung bobot kata pada abstrak dokumen berdasarkan rumus Salton & Buckley.

5. Disain Model Pencarian MySQL, PHP, Apache

Program pencarian dokumen

- Buat program yang membaca & memecah query menjadi serangkaian kata

- Buat program untuk mencari dokumen yang memiliki kata pada query

6 Disain Metode Representasi Hasil

MySQL, PHP, Apache

Program - Membuat program implementasi algoritma clustering terbaik hasil pengujian

Lampiran 2 Daftar kata MRD dengan PK = 5 % (Total 624)

www web id samaan transaksi sistem basis data kembang penelitian bahasa query model lengkap vendor penyimpanan tipe menarik fitur aplikasi paket sumber daya menyediakan disimpan sesuai perusahaan beda memasuki dunia internet generasi menyimpan file system operasi diakses browser form format html mudah tampilan sifat jaringan komputer multimedia video digital milik dll komponen perangkat keras pengguna untung penggunaan bebas akses efisien pengembangan aman perbaikan proses page level gambar fisik eksternal perintah sql informasi memiliki user struktur indeks software kenal isi pemrograman mesin unit interface dilengkapi objek produk client server alat database memenuhi sederhana table dimensi baris dirancang kunci hubungan layar command dasar hidup cepat lingkungan pc tabel kode simpan konsep jam pt media jakarta http hasil detail rendah hubung on perbedaan record nama field pemakai tujuan sedia pengaturan mengembangkan amerika mengakses international program menjalankan letak sulit fasilitas telepon selular tukar up to teknologi kabel instalasi komunikasi gerak mobile alternatif manfaat gprs radio wap application bentuk nilai input perubahan disk layanan membutuhkan modul public transmisi no end dibaca ponsel kirim nokia and name fungsi operator php mysql konfigurasi start menu baca situs daftar nomor cocok email indonesia for in of org index com class type net telkom implementasi dimana gantung line navigasi pasang artikel mencoba koneksi password if or temu script memilih muncul pesan diatas negara contoh string memasukkan menampilkan select from update ubah manual langkah lokal login pilih harap selesai tinggal mengubah catatan otomatis menghapus linux tulisan sempurna menyebabkan jalankan manager open pilihan jenis control global menentukan membuka normal default internal ukuran set maksimum mengikuti direktori setting as tampil kiri download folder terang kanan mencari lakukan new this it windows tingkat ms mah platform jalan unix versi redhat install rpm standar hati mb batas ruang cd by mendownload coba menit singkat membaca relatif pribadi lampu root buah test use with karakter teks time tanda mengandung menambah is tanggal mm memudahkan pengoperasian key dianggap khawatir not show perhatikan mengambil mengganti warna kait desain alamat microsoft ya buka tombol teknik kombinasi kualitas banding biaya mengurangi angka lebar kota barang merekam penjualan aktif hilang berat hitam menjadikan mengisi dipakai ba kendaraan mobil kelas etc pindah rumah java distribusi eropa bukti stabil source alias saham pasar tambahan port lawan main usaha pendukung sayang tim grup code diperoleh harga jual status an unik menampung menekan pembuatan unggul kondisi phone ganti sisi mahal murah total nai selamat dipilih kelompok target mode contributed si memanfaatkan top menghasilkan posisi memory dicoba dimiliki parameter memori us gabungan dibanding meningkatkan aksi kecuali memakai pintu peningkatan dikenal kalah perkembangan resmi produksi mencapai development lambat bagus metode mail local mengeluarkan at urusan list ringan high tutup was mengatur koleksi pusat menawarkan arah membawa lumayan jerman card mengadopsi agam tahan have are be merah using final menang tipis pertandingan kartu gol bola babak permainan pemain peluang pelatih kuat serangan melawan mencetak piala mengirim putaran menghadapi penampilan stadion gawang kaki liga maksimal turun ditambah sukses lapang seri poin jarak meter badan kapasitas uang sisa faktor perhatian lagu hadir tenaga kesan bogor kaca berkat li pekan layak pas jepang panggilan motor siaga performa tajam bilang non unggulan internasional negeri perdagangan tanah minyak nada penutupan dolar foto pelaku menikmati bakar gaya mencatat vga merek that been asia lupa samping kernel potensi kb resolusi uji efek negatif nyaman konsumen suara dengar mini detik menguat flash segi ciri bahan khas silinder dibuka games plus mp meningkat cc rp player pergerakan elegan sms air audio speaker bodi dibekali tft kamera musik ringtone keypad jari bluetooth volume baterai ion konektivitas mms jernih rupiah gram pixels infrared dering zoom meluncurkan pabrikan cm penurunan positif varian bursa sedan udara kabin bunga regional tanaman pertanian pangan gen genetik bioteknologi senilai balai abstract et words suku bank gas roda investor ihsg lq jii stagnan astra melemah sentimen penumpang interior

Lampiran 3 Daftar kata MRD dengan PK = 10 % (Total 191)

www web id sistem basis data kembang penelitian bahasa model lengkap tipe menarik fitur aplikasi sumber daya menyediakan sesuai perusahaan beda dunia internet menyimpan file system operasi format mudah tampilan sifat jaringan komputer perangkat pengguna penggunaan akses pengembangan aman proses level gambar perintah informasi memiliki user indeks software isi mesin unit dilengkapi produk server database sederhana baris layar dasar cepat lingkungan jam jakarta http hasil on nama tujuan sedia program menjalankan letak sulit fasilitas to teknologi manfaat bentuk nilai perubahan membutuhkan ponsel and fungsi konfigurasi menu situs nomor indonesia for in of com dimana gantung mencoba koneksi or memilih muncul pesan negara contoh menampilkan manual langkah harap tinggal otomatis linux pilihan jenis global ukuran setting as tampil kiri download kanan new windows tingkat jalan versi standar mb batas by coba menit buah is mm memudahkan key warna desain tombol kualitas banding aktif berat dipakai mobil kelas java saham pasar tambahan main sayang tim harga unggul kondisi sisi memanfaatkan menghasilkan posisi memori gabungan dibanding produksi mencapai mengatur arah tahan pertandingan kartu pemain kuat turun seri poin kapasitas hadir tenaga performa perdagangan nyaman suara detik bahan rp kamera keypad volume rupiah tanaman ihsg

Lampiran 4 Daftar kata MRD dengan PK = 15 % (Total 83)

www sistem data model lengkap fitur aplikasi menyediakan sesuai beda dunia internet file system operasi mudah tampilan komputer pengguna penggunaan akses proses level gambar perintah informasi memiliki user isi mesin dilengkapi produk server layar cepat jam jakarta hasil nama sedia program fasilitas to teknologi bentuk nilai and fungsi menu indonesia for in of com muncul contoh otomatis linux pilihan jenis ukuran as tampil jalan versi batas by menit warna desain tombol kelas pasar harga kondisi sisi menghasilkan posisi tahan seri kapasitas performa bahan

Lampiran 5 Daftar kata MRD dengan PK = 20 % (Total 34)

sistem data fitur aplikasi sesuai beda dunia file mudah tampilan komputer penggunaan proses memiliki cepat hasil nama sedia program teknologi bentuk fungsi indonesia in of contoh pilihan jenis ukuran as tampil jalan pasar harga

Lampiran 6 Daftar kata MRD bahasa Inggris dengan PK = 0.05 % (Total 1713)

economy expected next year international official said recent conflict main reasons middle central monday track grow end half estimates billion damage caused air impact far thought come comes port million ended august efforts december needs early size package given level recommend public equal product country need report published sunday budget rise projects nearly people mainly opec hope officials hold discuss operation al president press world second leading oil critical force market reported day join petroleum countries member worked closely pricing production group means particularly moment energy minister members high meet industry foreign demand talk speaking thursday likely cut prices concern deal october time agreed pay government companies approximately new net statement document difficult chapter closed future won ends asked leave california based managing operations leads dropped mid july output barrels make months crude fuel exact date decided added expressed decision secretary tell needed head near record sure news meeting nigeria wanted ready substantial formal position reduce september taking associated plan order april especially week making finding global trying protect revenue turn price start miss target development costs set lack state fourth original national close current total provided increase number maintenance rate announced soon packages blocks major plans rising concerns problem security work risk economic case prepared produces aimed solution interested control certain individual assembly history received information followed create company existing producing led including remaining known use tool stop unless account began free aim shell response frequently help secure release usually tip forces ensure started string seven separate reduction released reason elements connection like groups pressing region february capacity gas plant june completely problems giving despite chance social develop failed let action launched called city mark thousands installations considering series restrictions try safe attempts working feel doing peter natural blue union provides does way situation greater doesn respect involved widespread benefits trade stable suggested supply host growth alternative comfortable levels supported contain limits limited west arguments possible consider prevent speech american life resources makes hard avoid build business prefer perspective lead share claim value united states planning double europe location swap support keeping say range hit years entered successful chinese growing specific begin regular technical fair largely past significant somewhat final march project looking big details presence corp run established office planned releases data summary car great look drive works living replaced engine turbo transmission wrong having replacing know cost times period multiple good thing fast parts custom door going just running player possibly didn attention worth probably service non depending style small similar products used odd truth photo raised simply design came black smaller fit ve seen short combination large unique excellent ensures outside rear mounted cylinder horsepower rpm pound feet torque numbers believe weight right foot long faster similarly cars handles drives ease offers wheel suspension fact precise standard strong interior functional base able materials offer want inside expect brand place vehicle type inline block injection power speed automatic length performance zero mph steve comparison welcome addition field kind expensive example tested furthermore newly percent lower actually better choice driven models introduced direct engines compared liter resulting extra important actual character smooth experienced difference knows manual mode sophisticated optional significantly mm did exist tests old introduction fundamental slightly older list equivalent context rest pop necessarily left device capable really looks class don little interesting answer sense real ordinary got shared previously change altered logic model gain updates family previous contrast different color screen created engineering points green wide powered pair electric environmental presents basic clear familiar essentially newer test returns cards finish discovered advance lot read concept latest cell technology developed version improved efficiency form features flow stack claimed volume density improvement changed instead key efficient starting low ion storage battery motor source according ground sound fairly quickly continues quality typical easy forget using heart note light available isn bad november entry quite success signature remains moved appears developing sources suggest built platform improve handling expense space suitable law choose selection versions regarding choices mirror dual role traditional balance distribution naturally higher plus rules testing ll late james officially relatively modifications specifically larger overall legal line says creation technologies result contains research window named idea hidden certainly correct red white iconic multi element particular think chosen layout interactive embedded touch activated calls feature cells provide additional word bus best home spread micro magic america ultra versa units gene

carried body structure dimensions changes easier designed variable conventional pairs satisfied longer helps electronic systems allow driver getting specify setup issues suggests wikipedia encyclopedia scientific bacteria causes plants commonly ability transfer dna genetic contents hide biotechnology external links edit disease root related distinct currently generally restricted shown integrated journal

Dokumen terkait