Sistem pemerolehan informasi berita berbasis cluster menggunakan Fuzzy C-Means Clustering
Teks penuh
(2) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. CLUSTER BASED INFORMATION RETRIEVAL SYSTEM FOR NEWS USING FUZZY C-MEANS CLUSTERING. THESIS Presented as Partial Fulfillment of The Requirements To Obtain the Bachelor Degree of Computer (S.Kom.) In Informatics Engineering Study Program. Written By : YOSAFAT WILLY CHRISTIAN NIM : 155314044. INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2019.
(3) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. HALAMAN PERSETUJUAN SKRIPSI. SISTEM PEMEROLEHAN INFORMASI BERITA BERBASIS CLUSTER MENGGUNAKAN FUZZY C-MEANS CLUSTERING. Oleh : YOSAFAT WILLY CHRISTIAN 155314044. Telah disetujui oleh :. Dosen Pembimbing 1,. Drs. Johanes Eka Priyatma, M.Sc., Ph.D.. Dosen Pembimbing 2,. Robertus Adi Nugroho S.T., M.Eng.. Tanggal : 12 September 2019. i.
(4) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. HALAMAN PENGESAHAN SKRIPSI SISTEM PEMEROLEHAN INFORMASI BERITA BERBASIS CLUSTER MENGGUNAKAN FUZZY C-MEANS CLUSTERING. Dipersiapkan dan ditulis oleh : Yosafat Willy Christian NIM : 155314044 Telah Dipertahankan di Depan Panitia Penguji Pada Tanggal 24 September 2019 dan Dinyatakan Memenuhi Syarat Susunan Panitia Penguji Nama Lengkap. Tanda Tangan. Ketua. : Dr Anastasia Rita Widiarti. ................. Sekretaris. : Drs. Haris Sriwindono M.Kom, Ph.D.. ................. Anggota 1. : Drs. Johanes Eka Priyatma, M.Sc., Ph.D.. ................. Anggota 2. : Robertus Adi Nugroho S.T., M.Eng.. ................. Yogyakarta, . . . . . . . . . . . . . . . . . . . Fakultas Sains dan Teknologi Universitas Sanata Dharma Dekan,. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D.. ii.
(5) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. PERNYATAAN KEASLIAN KARYA. Saya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis tidak mengandung atau memuat hasil karya orang lain, kecuali yang telah disebutkan dalam daftar pustaka dan kutipan selayaknya karya ilmiah.. Yogyakarta, . . . . . . . . . . . . . . . . . 2019 Penulis ,. Yosafat Willy Christian. iii.
(6) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMISI. Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Yosafat Willy Christian NIM. : 155314044. Demi pengembangan ilmu pengetahuan, saya memberikan kepada perpustakaan Universitas Sanata Dharma karya ilmiah yang berjudul : SISTEM PEMEROLEHAN INFORMASI BERITA BERBASIS CLUSTER MENGGUNAKAN FUZZY C-MEANS CLUSTERING beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengaluhkan dalam bentuk media lain, mengelolanya dalam bentuk pengkalan data, mendistribusikan secara terbatas dan mempublikasikan di internet atau media lain untuk kepentingan akademis tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pernyataan ini saya buat dengan sebenarnya.. Yogyakarta, . . . . . . . . . . . . . . . . . 2019. Penulis,. Yosafat Willy Christian. iv.
(7) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. ABSTRAK. Peningkatan jumlah dokumen berita menimbulkan permasalahan baru yang berasal dari besarnya volume data yang ada. Semakin besar volume data tersebut, maka proses pemerolehan informasi cenderung membutuhkan waktu retrieval yang lebih lama. Salah satu metode yang diusulkan untuk mempersingkat waktu retrieval adalah dengan cara mengelompokkan koleksi dokumen. Dalam penelitian ini, Fuzzy C-Means dipilih sebagai algoritma pemodelan cluster. Representasi data menggunakan TF-IDF yang telah melalui operasi teks seperti stopword dan stemming. Hasil pengelompokkan koleksi dokumen kemudian diterapkan pada sistem pemerolehan informasi untuk mengetahui seberapa baik pengelompokkan koleksi dokumen dalam mempersingkat waktu retrieval, dan pengaruhnya terhadap nilai precision. Data yang digunakan adalah dokumen berita berbahasa indonesia sebanyak 100 berita. Pengelompokkan menggunakan Fuzzy C-Means menghasilkan purity sebesar 98%. Hasil pengujian pada sistem pemerolehan informasi, ditemukan bahwa waktu retrieval lebih singkat hingga 70.8%, dan nilai precision sedikit lebih rendah yaitu 82.7%, dibandingan dengan tanpa pengelompokkan yaitu 83.54%.. Kata Kunci: pemerolehan informasi, pengelompokkan dokumen, fuzzy c-means.. v.
(8) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. ABSTRACT The increase in number of news inflicts a new kind of problem derived from the volume of data contained there. The bigger the data volume, the process to retrieve information would tend to take longer retrieval time. One of the methods suggested to shorten the retrieval time is to cluster the document collections. In this particular research, Fuzzy C-Means was chosen as the modeling cluster algorithm. The data representation used TF-IDF which had already through text operation such as stopword and stemming. Then the results from the collection of documents were assigned to the information retrieval system to comprehend how well the clustering of document collections in lessening the retrieval time and the effect to the precision value. The data which used were Indonesian news documents numbering 100 news. Clustering using Fuzzy C-Means gives 98% of purity. From the result test in the information retrieval system, it was found that the retrieval time lessened until 70.8% and precision value slightly lower which was 82.7%, compared to without clustering which was 83.54%. Keyword: information retrieval, documents clustering, fuzzy c-means.. vi.
(9) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. HALAMAN MOTTO. - In nomine Patris et Filii et Spiritus Sancti, Amen!-. vii.
(10) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. KATA PENGANTAR. Puji dan syukur penulis panjatkan kehadirat Tuhan Yesus Kristus atas rahmat dan karunia-Nya, sehingga penulis dapat menyelesaikan tugas akhir dengan judul “Sistem Pemerolehan Informasi Berita Berbasis Cluster Menggunakan Fuzzy C-Means Clustering” dengan baik. Tugas akhir ini merupakan salah satu persyaratan yang wajib ditempuh sebagai syarat akademik untuk memperoleh gelar Sarjana Komputer di Program Studi Teknik Infromatika Universitas Sanata Dharma Yogyakarta. Selama persiapan dan penyusunan tugas akhir ini, saya mendapat banyak dukungan dari berbagai pihak sehingga sudah sepantasnya penulis menyampaikan terimakasih yang sebesar-besarnya kepada : 1.. Bapak Drs. Johanes Eka Priyatma, M.Sc., Ph.D. selaku Rektor Universitas Sanata Dharma dan selaku Dosen Pembimbing I yang telah bersedia meluangkan waktu untuk membimbing dan mengarahkan penulis dalam menyelesaikan tugas akhir ini.. 2.. Bapak Robertus Adi Nugroho S.T., M.Eng. selaku Ketua Program Studi Teknik Informatika dan selaku Dosen Pembimbing II yang telah bersedia meluangkan waktu, tenaga, pikiran untuk memberikan bimbingan, perhatian, masukan dan kritik yang sangat berharga sehingga tugas akhir ini dapat terselesaikan dengan baik.. 3.. Bapak JB Budi Darmawan S.T., M.Sc. selaku Dosen Pembimbing Akademik yang selalu membimbing dan mendampingi penulis selama berkuliah di Program Studi Teknik Informatika Universitas Sanata Dharma.. 4.. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.. 5.. Seluruh dosen Teknik Informatika Universitas Sanata Dharma yang telah mendidik dan memberikan ilmu pengetahuan yang penulis gunakan selama bekal untuk menyelesaikan tugas akhir ini.. viii.
(11) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 6.. Ibu saya tercinta Nika Asmara Dewi yang selalu memberikan segalanya untuk saya.. 7.. Keluarga tercinta, yang telalu memberikan dukungan dan doa sehingga membuat. penulis. semakin. semangat. dalam. mengerjakan. serta. menyelesaikan tugas akhir ini. 8.. Saudari Mega Anindita yang selalu memberikan motivasi dan semangatnya untuk tidak menyerah dalam segala hal.. 9.. Keluarga “Buddy Fams” yang terdiri dari Salvatore Kidung Simadanu, Billy Lesmana, Maria Estrella Fritzca, Buddy dan Max telah memberikan semangat dan hiburan agar tidak bosan dalam mengerjakan tugas akhir ini.. 10.. Saudara Joshua, Galih, Tebe, Mario, Nandiel, Nando, Jovi, Andre Helm Kenny, yang sudah memberikan hiburan selama berkuliah.. 11.. Teman-teman dari seluruh keluarga Teknik Informatika 2015 yang juga selalu berjuang bersama untuk menyelesaikan tugas akhir kami masingmasing. Penulis menyadari bahwa masih ada banyak kekurangan dari tugas akhir. ini, sehingga penulis mengharapkan kritik dan saran yang bersifat membangun untuk menyempurnakannya. Semoga tugas akhir ini dapat bermanfaat bagi siapapun yang membacanya dan bagi saya khususnya sebagai penulis.. Yogyakarta, . . . . . . . . . . . . . . . . . 2019 Penulis,. Yosafat Willy Christian. ix.
(12) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. DAFTAR ISI HALAMAN PERSETUJUAN ................................................................................. i HALAMAN PENGESAHAN ................................................................................. ii PERNYATAAN KEASLIAN KARYA ................................................................ iii LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMISI ............................................................. iv ABSTRAK .............................................................................................................. v ABSTRACT ........................................................................................................... vi HALAMAN MOTTO ........................................................................................... vii KATA PENGANTAR ......................................................................................... viii DAFTAR ISI ........................................................................................................... x DAFTAR GAMBAR ........................................................................................... xiv DAFTAR TABEL ............................................................................................... xvii BAB I PENDAHULUAN ...................................................................................... 1 1.1.. Latar Belakang ........................................................................................ 1. 1.2.. Rumusan Masalah ................................................................................... 3. 1.3.. Tujuan Penelitian .................................................................................... 3. 1.4.. Batasan Masalah...................................................................................... 3. 1.5.. Sistematika Penulisan ............................................................................. 4. BAB II LANDASAN TEORI ................................................................................ 5 2.1.. Konsep Pemerolehan Informasi .............................................................. 5. 2.1.1.. Operasi Teks...................................................................................... 5. a.. Stopword ........................................................................................... 5. b.. Stemming ........................................................................................... 6. c.. Tokenisasi ......................................................................................... 6. 2.1.2.. Matriks Dokumen-Istilah (Term-Document Matrix) ........................ 6. 2.1.3.. Pembobotan TF-IDF ......................................................................... 7. 2.1.4.. Model Ruang Vektor (Vector Space Model)..................................... 7. 2.1.5.. Evaluasi Pemerolehan Informasi....................................................... 8. 2.2.. Konsep Pengelompokan Dokumen ......................................................... 9. 2.2.1.. Metode Clustering pada Pemerolehan Informasi. ............................. 9. 2.2.2.. Hipotesis Cluster ............................................................................... 9 x.
(13) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 2.2.3.. Fuzzy C-Means ............................................................................... 10. 2.2.4.. Algoritma Fuzzy C-Means .............................................................. 12. 2.2.5.. Penegasan (defuzzy) ........................................................................ 13. 2.2.6.. Evaluasi Cluster .............................................................................. 15. 2.2.6.1. 2.2.7.. Purity........................................................................................ 15. Contoh Penerapan Fuzzy C-Means ................................................. 15. BAB III METODOLOGI PENELITIAN ............................................................ 23 3.1.. Gambaran Umum Penelitian ................................................................. 23. 3.2.. Sumber Data .......................................................................................... 23. 3.3.. Spesifikasi Alat ..................................................................................... 24. 3.4.. Tahap-tahap Penelitian .......................................................................... 25. 3.4.1.. Pengembangan Perangkat Lunak .................................................... 25. 3.4.1.. Uji Coba Relevansi ......................................................................... 25. 3.4.1.. Analisis Hasil Uji Coba Relevansi .................................................. 26. 3.5.. Perancangan Penelitian ......................................................................... 26. 3.5.1.. Alur Proses Sistem .......................................................................... 26. 3.5.1.1.. Deskripsi Sistem ...................................................................... 26. 3.5.1.2.. Sub Sistem Pengelompokkan Dokumen .................................. 26. 3.5.1.3.. Sub Sistem Pencarian Dokumen .............................................. 29. 3.5.2.. Blok Diagram Penelitian ................................................................. 31. 3.5.3.. Flowchart Fuzzy C-Means .............................................................. 33. a.. Algoritma Membangkitkan Bilangan Random Pada Matriks Partisi 34. b.. Algoritma Hitung Pusat Cluster ...................................................... 34. c.. Algoritma Hitung Fungsi Objektif .................................................. 35. d.. Algoritma Perbaiki Matriks Partisi ................................................. 35. 3.5.4.. Flowchart Preprocessing ................................................................. 37. 3.5.5.. Flowchart Text Operation ............................................................... 38. 3.5.6.. Flowchart Indexing ......................................................................... 39. 3.5.7.. Flowchart Proses Clustering ........................................................... 40. 3.5.8.. Flowchart Retrieval Tanpa Cluster ................................................. 41. a.. Algoritma Hitung DF (Document Frequency) ................................ 42. xi.
(14) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. b.. Algoritma Menghitung IDF(Inverse Document Frequency) .......... 42. c. Algoritma Menghitung TFIDF(Term FrequencyInverse Document Frequency) Query...................................................................................... 42 d.. Algoritma Hitung Jarak Query dan Seluruh Dokumen dan Ranking 43. 3.5.9.. Flowchart Retrieval Berbasis Cluster.............................................. 44. Algoritma Hitung Jarak Query dan Pusat Cluster ..................................... 45 BAB IV ANALISIS PERANCANGAN SISTEM ............................................... 46 4.1.. Analisis Sistem ...................................................................................... 46. 4.1.1. 4.2.. Analisis Kebutuhan Pengguna ........................................................ 46. Perancangan Sistem .............................................................................. 46. 4.2.1.. Diagram Use Case........................................................................... 46. 4.2.2.. Narasi Use Case .............................................................................. 47. 4.2.2.1.. Melihat Dokumen .................................................................... 47. 4.2.2.2.. Melakukan Clustering Dokumen ............................................. 48. 4.2.2.3.. Melakukan Pencarian Dokumen .............................................. 49. 4.2.3.. Perancangan Kelas Diagram (Diagram Class) ............................... 50. 4.2.4.. Perancangan Diagram Sequence ..................................................... 51. 4.3.. 4.2.4.1.. Diagram Sequence Melihat Dokumen ..................................... 51. 4.2.4.2.. Diagram Sequence Melakukan Clustering .............................. 51. 4.2.4.3.. Diagram Sequence Melakukan Pencarian ............................... 52. Rancangan Antarmuka Pengguna (User Interface) .............................. 53. 4.3.1.. Halaman Awal Pencarian ................................................................ 53. 4.3.2.. Halaman Hasil Pencarian ................................................................ 53. 4.3.3.. Halaman Dokumen.......................................................................... 54. 4.3.4.. Halaman Clustering ........................................................................ 54. BAB V IMPLEMENTASI DAN ANALISIS SISTEM ....................................... 55 5.1.. Struktur Data ......................................................................................... 55. 5.2.. Implementasi Pengelompokkan Dokumen ........................................... 56. 5.3.. Implementasi Operasi Teks ................................................................... 60. 5.4.. Implementasi Pencarian Dokumen Tanpa Cluster ................................ 60. 5.5.. Implementasi Pencarian Dokumen berbasis Clustering ........................ 64. 5.6.. Implementasi Antarmuka Pengguna ..................................................... 67 xii.
(15) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 5.6.1.. Implementasi Antarmuka Pencarian Dokumen .............................. 67. 5.6.2.. Implementasi Antarmuka Pengelompokkan Dokumen .................. 68. 5.6.3.. Implementasi Antarmuka Melihat Dokumen .................................. 69. 5.7.. Analisis Hasil Sistem ............................................................................ 70. 5.7.1.. Hasil Pengelompokkan Dokumen ................................................... 70. 5.7.1.1. 5.7.2.. Purity........................................................................................ 73. Hasil Pengujian Dokumen berdasarkan Query Pengguna .............. 74. 5.7.2.1.. Pencarian dengan query “Spesifikasi” ..................................... 74. 5.7.2.2.. Pencarian dengan query “Penjualan Ponsel” ........................... 78. 5.7.2.3.. Pencarian dengan query “Kamera” .......................................... 82. 5.7.2.4.. Pencarian dengan query “KPU” .............................................. 86. 5.7.2.5.. Pencarian dengan query “Penetapan Presiden” ....................... 91. 5.7.2.6.. Pencarian dengan query “Infrastruktur” .................................. 96. 5.7.2.7.. Pencarian dengan query “Investasi” ...................................... 101. 5.7.2.8.. Pencarian dengan query “Bisnis” .......................................... 105. 5.7.2.9.. Pencarian dengan query “Jakmania” ..................................... 109. 5.7.2.10. Pencarian dengan query “Persebaya” .................................... 113 5.8.. Pembahasan ......................................................................................... 117. 5.8.1.. 5.8.1.1.. Sistem Pemerolehan Informasi berbasis Cluster ................... 117. 5.8.1.2.. Sistem Pemerolehan Informasi tanpa Cluster ........................ 118. 5.8.2. 5.9.. Rata-rata Interpolasi 11 Titik Recall – Precision .......................... 117. Waktu Eksekusi ............................................................................. 120. Kelebihan dan Kekurangan Sistem ..................................................... 122. 5.9.1.. Kelebihan Sistem .......................................................................... 122. 5.9.2.. Kekurangan Sistem ....................................................................... 122. BAB VI PENUTUP ............................................................................................ 123 6.1.. Kesimpulan ......................................................................................... 123. 6.2.. Saran .................................................................................................... 124. DAFTAR PUSTAKA ......................................................................................... 125. xiii.
(16) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. DAFTAR GAMBAR. Gambar 2. 1. Visualisasi Term-Document Matrix................................................. 7 Gambar 3. 1. Penamaan File Berita ..................................................................... 23 Gambar 3. 2. Contoh isi salah satu file berita. ..................................................... 24 Gambar 3. 3. Alur proses pengelompokkan dokumen ........................................ 28 Gambar 3. 4. Alur proses pencarian dokumen berbasis cluster........................... 30 Gambar 3. 5. Alur proses pencarian dokumen tanpa cluster ............................... 31 Gambar 3. 6. Sistem Pemerolehan Informasi Tanpa Cluster .............................. 32 Gambar 3. 7. Sistem Pemerolehan Informasi Berbasis Cluster ........................... 32 Gambar 3. 8. Flowchart Fuzzy C-Means ............................................................. 33 Gambar 3. 9. Flowcart Preprocessing .................................................................. 37 Gambar 3. 10. Flowcart Text Operation .............................................................. 38 Gambar 3. 11. Flowcart Indexing ........................................................................ 39 Gambar 3. 12. Flowchart Proses Clustering ........................................................ 40 Gambar 3. 13. Flowchart Retrieval Tanpa Cluster .............................................. 41 Gambar 3. 14. Flowchart Retrieval Berbasis Cluster .......................................... 44 Gambar 4. 1. Diagram Use Case ......................................................................... 46 Gambar 4. 2. Diagram Class Sistem Pemerolehan Informasi berbasis Clustering ............................................................................................................................... 50 Gambar 4. 3. Diagram Sequence Melihat Dokumen ........................................... 51 Gambar 4. 4. Diagram Sequence Melakukan Clustering .................................... 51 Gambar 4. 5. Diagram Sequence Pencarian berbasis Clustering ........................ 52 Gambar 4. 6. Diagram Sequence Pencarian Tanpa Cluster................................. 52 Gambar 4. 7. Rancangan antarmuka halaman awal pencarian ............................ 53 Gambar 4. 8. Rancangan antarmuka halaman hasil pencarian ............................ 53 Gambar 4. 9. Rancangan antarmuka halaman dokumen ..................................... 54 Gambar 4. 10. Rancangan antarmuka halaman clustering .................................. 54 Gambar 5. 1. Struktur data untuk master term list dan document id list berupa HashMap ............................................................................................................... 55 Gambar 5. 2. Tampilan awal Subsistem pencarian dokumen ketika pertama kali dijalankan. ............................................................................................................. 67. xiv.
(17) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Gambar 5. 3. Tampilan subsistem pencarian dokumen ketika memunculkan hasil pencarian ............................................................................................................... 67 Gambar 5. 4. Tampilan awal subsistem pengelompokkan dokumen ketika pertama kali dijalankan ......................................................................................... 68 Gambar 5. 5. Tampilan subsistem pengelompokkan dokumen ketika memunculkan hasil pengelompokkan ................................................................... 68 Gambar 5. 6. Tampilan awal menu untuk dokumen ketika pertama kali dijalankan .............................................................................................................. 69 Gambar 5. 7. Tampilan saat melihat isi dokumen ............................................... 69 Gambar 5. 8. Grafik interpolasi 11 titik recall precision terhadap query “spesifikasi” pada Sistem Pemerolehan Informasi berbasis Cluster..................... 75 Gambar 5. 9. Grafik interpolasi 11 titik recall precision terhadap query “spesifikasi” pada Sistem Pemerolehan Informasi tanpa Cluster. ........................ 77 Gambar 5. 10. Grafik interpolasi 11 titik recall precision terhadap query “Penjualan Ponsel” pada Sistem Pemerolehan Informasi berbasis Cluster. ......... 79 Gambar 5. 11. Grafik interpolasi 11 titik recall precision terhadap query “Penjualan Ponsel” pada Sistem Pemerolehan Informasi Tanpa Cluster. ............ 82 Gambar 5. 12. Grafik interpolasi 11 titik recall precision terhadap query “Kamera” pada Sistem Pemerolehan Informasi berbasis Cluster. ........................ 84 Gambar 5. 13. Grafik interpolasi 11 titik recall precision terhadap query “Kamera” pada Sistem Pemerolehan Informasi tanpa Cluster. ............................ 86 Gambar 5. 14. Grafik interpolasi 11 titik recall precision terhadap query “KPU” pada Sistem Pemerolehan Informasi berbasis Cluster. ......................................... 88 Gambar 5. 15. Grafik interpolasi 11 titik recall precision terhadap query “KPU” pada Sistem Pemerolehan Informasi tanpa Cluster. ............................................. 90 Gambar 5. 16. Grafik interpolasi 11 titik recall precision terhadap query “Penetapan Presiden” pada Sistem Pemerolehan Informasi berbasis Cluster. ..... 93 Gambar 5. 17. Grafik interpolasi 11 titik recall precision terhadap query “Penetapan Presiden” pada Sistem Pemerolehan Informasi tanpa Cluster. .......... 96 Gambar 5. 18. Grafik interpolasi 11 titik recall precision terhadap query “Infrastrultur” pada Sistem Pemerolehan Informasi berbasis Cluster. ................. 98 Gambar 5. 19. Grafik interpolasi 11 titik recall precision terhadap query “Infrastruktur” pada Sistem Pemerolehan Informasi tanpa Cluster. ................... 100 Gambar 5. 20. Grafik interpolasi 11 titik recall precision terhadap query “Investasi” pada Sistem Pemerolehan Informasi berbasis Cluster. .................... 102 Gambar 5. 21. Grafik interpolasi 11 titik recall precision terhadap query “Investasi” pada Sistem Pemerolehan Informasi tanpa Cluster. ......................... 104. xv.
(18) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Gambar 5. 22. Grafik interpolasi 11 titik recall precision terhadap query “Bisnis” pada Sistem Pemerolehan Informasi berbasis Cluster. ....................................... 106 Gambar 5. 23. Grafik interpolasi 11 titik recall precision terhadap query “Bisnis” pada Sistem Pemerolehan Informasi tanpa Cluster. ........................................... 108 Gambar 5. 24. Grafik interpolasi 11 titik recall precision terhadap query “Jakmania” pada Sistem Pemerolehan Informasi berbasis Cluster. ................... 110 Gambar 5. 25. Grafik interpolasi 11 titik recall precision terhadap query “Jakmania” pada Sistem Pemerolehan Informasi tanpa Cluster. ........................ 112 Gambar 5. 26. Grafik interpolasi 11 titik recall precision terhadap query “Persebaya” pada Sistem Pemerolehan Informasi berbasis Cluster. .................. 114 Gambar 5. 27. Grafik interpolasi 11 titik recall precision terhadap query “Persebaya” pada Sistem Pemerolehan Informasi Tanpa Cluster....................... 116 Gambar 5. 28. Grafik rata-rata interpolasi 11 titik recall precision kedua jenis sistem .................................................................................................................. 119 Gambar 5. 29. Grafik perbandingan waktu eksekusi kedua jenis sistem (1) .... 120 Gambar 5. 30. Grafik perbandingan waktu eksekusi kedua jenis sistem (2) .... 121. xvi.
(19) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. DAFTAR TABEL. Tabel 2. 1. Contoh Dokumen yang akan di Cluster ............................................. 15 Tabel 2. 2. Dokumen yang telah melalui proses operasi teks .............................. 16 Tabel 2. 3. Term-Document Matrix ..................................................................... 16 Tabel 2. 4. Pembobotan Term-Document Matrix ................................................ 16 Tabel 2. 5. Data yang siap di Cluster ................................................................... 17 Tabel 2. 6. Perhitungan Pusat Cluster 1 ............................................................... 18 Tabel 2. 7. Perhitungan Pusat Cluster 2 ............................................................... 18 Tabel 2. 8. Detail Perhitungan Fungsi Objektif .................................................... 19 Tabel 2. 9. Detil Perhitungan Derajat Keanggotaan Baru (Matriks Partisi) ......... 20 Tabel 2. 10. Tabel Derajat Keanggotaan Tiap Data Pada Setiap Cluster ............. 22 Tabel 4. 1. Kebutuhan Fungsional Pengguna Sistem ........................................... 46 Tabel 4. 2. Narasi Use Case Melihat Dokumen ................................................... 47 Tabel 4. 3. Narasi Use Case Melakukan Clustering Dokumen ............................ 48 Tabel 4. 4. Narasi Use Case Melakukan Pencarian Dokumen ............................. 49 Tabel 5. 1. Hasil pengelompokkan dokumen yang dilakukan oleh sistem .......... 70 Tabel 5. 2. Hasil penghitungan dokumen-dokumen yang sesuai dengan ............ 73 Tabel 5. 3. Hasil pencarian dengan query “spesifikasi” pada Sistem Pemerolehan Informasi berbasis Cluster. ................................................................................... 74 Tabel 5. 4. Interpolasi 11 titik recall precision terhadap query “spesifikasi pada Sistem Pemerolehan Informasi berbasis Cluster................................................... 75 Tabel 5. 5. Hasil pencarian dengan query “spesifikasi” pada Sistem Pemerolehan Informasi tanpa Cluster. ........................................................................................ 76 Tabel 5. 6. Interpolasi 11 titik recall precision terhadap query “spesifikasi pada Sistem Pemerolehan Informasi tanpa Cluster. ...................................................... 76 Tabel 5. 7. Hasil pencarian dengan query “Penjualan Ponsel” pada Sistem Pemerolehan Informasi berbasis Cluster. ............................................................. 78 Tabel 5. 8. Interpolasi 11 titik recall precision terhadap query “Penjualan Ponsel” pada Sistem Pemerolehan Informasi berbasis Cluster. ......................................... 79 Tabel 5. 9. Hasil pencarian dengan query “Penjualan Ponsel” pada Sistem Pemerolehan Informasi tanpa Cluster. .................................................................. 80 Tabel 5. 10. Interpolasi 11 titik recall precision terhadap query “Penjualan Ponsel pada Sistem Pemerolehan Informasi tanpa Cluster. ............................................. 81 xvii.
(20) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Tabel 5. 11. Hasil pencarian dengan query “Kamera” pada Sistem Pemerolehan Informasi berbasis Cluster. ................................................................................... 82 Tabel 5. 12. Interpolasi 11 titik recall precision terhadap query “Kamera” pada Sistem Pemerolehan Informasi berbasis Cluster................................................... 83 Tabel 5. 13. Hasil pencarian dengan query “Kamera” pada Sistem Pemerolehan Informasi tanpa Cluster. ........................................................................................ 84 Tabel 5. 14. Interpolasi 11 titik recall precision terhadap query “Kamera” pada Sistem Pemerolehan Informasi tanpa Cluster. ...................................................... 85 Tabel 5. 15. Hasil pencarian dengan query “KPU” pada Sistem Pemerolehan Informasi berbasis Cluster. ................................................................................... 86 Tabel 5. 16. Interpolasi 11 titik recall precision terhadap query “KPU” pada Sistem Pemerolehan Informasi berbasis Cluster................................................... 88 Tabel 5. 17. Hasil pencarian dengan query “KPU” pada Sistem Pemerolehan Informasi tanpa Cluster. ........................................................................................ 89 Tabel 5. 18. Interpolasi 11 titik recall precision terhadap query “KPU” pada Sistem Pemerolehan Informasi tanpa Cluster. ...................................................... 90 Tabel 5. 19. Hasil pencarian dengan query “Penetapan Presiden” pada Sistem Pemerolehan Informasi berbasis Cluster. ............................................................. 91 Tabel 5. 20. Interpolasi 11 titik recall precision terhadap query “Penetapan Presiden” pada Sistem Pemerolehan Informasi berbasis Cluster. ........................ 92 Tabel 5. 21. Hasil pencarian dengan query “Penetapan Presiden” pada Sistem Pemerolehan Informasi tanpa Cluster. .................................................................. 93 Tabel 5. 22. Interpolasi 11 titik recall precision terhadap query “Penetapan Presiden” pada Sistem Pemerolehan Informasi tanpa Cluster. ............................. 95 Tabel 5. 23. Hasil pencarian dengan query “Infrastuktur” pada Sistem Pemerolehan Informasi berbasis Cluster. ............................................................. 96 Tabel 5. 24. Interpolasi 11 titik recall precision terhadap query “Infrastruktur” pada Sistem Pemerolehan Informasi berbasis Cluster. ......................................... 97 Tabel 5. 25. Hasil pencarian dengan query “Infrastruktur” pada Sistem Pemerolehan Informasi tanpa Cluster. .................................................................. 99 Tabel 5. 26. Interpolasi 11 titik recall precision terhadap query “Infrastruktur” pada Sistem Pemerolehan Informasi tanpa Cluster. ........................................... 100 Tabel 5. 27. Hasil pencarian dengan query “Investasi” pada Sistem Pemerolehan Informasi berbasis Cluster. ................................................................................. 101 Tabel 5. 28. Interpolasi 11 titik recall precision terhadap query “Investasi pada Sistem Pemerolehan Informasi berbasis Cluster................................................. 102 Tabel 5. 29. Hasil pencarian dengan query “Investasi” pada Sistem Pemerolehan Informasi tanpa Cluster. ...................................................................................... 103. xviii.
(21) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Tabel 5. 30. Interpolasi 11 titik recall precision terhadap query “Investasi pada Sistem Pemerolehan Informasi tanpa Cluster. .................................................... 104 Tabel 5. 31. Hasil pencarian dengan query “Bisnis” pada Sistem Pemerolehan Informasi berbasis Cluster. ................................................................................. 105 Tabel 5. 32. Interpolasi 11 titik recall precision terhadap query “Bisnis” pada Sistem Pemerolehan Informasi berbasis Cluster................................................. 106 Tabel 5. 33. Hasil pencarian dengan query “Bisnis” pada Sistem Pemerolehan Informasi tanpa Cluster. ...................................................................................... 107 Tabel 5. 34. Interpolasi 11 titik recall precision terhadap query “Bisnis” pada Sistem Pemerolehan Informasi tanpa Cluster. .................................................... 108 Tabel 5. 35. Hasil pencarian dengan query “Jakmania” pada Sistem Pemerolehan Informasi berbasis Cluster. ................................................................................. 109 Tabel 5. 36. Interpolasi 11 titik recall precision terhadap query “Jakmania” pada Sistem Pemerolehan Informasi berbasis Cluster................................................. 110 Tabel 5. 37. Hasil pencarian dengan query “Jakmania” pada Sistem Pemerolehan Informasi tanpa Cluster. ...................................................................................... 111 Tabel 5. 38. Interpolasi 11 titik recall precision terhadap query “Jakmania” pada Sistem Pemerolehan Informasi tanpa Cluster. .................................................... 112 Tabel 5. 39. Hasil pencarian dengan query “Persebaya” pada Sistem Pemerolehan Informasi berbasis Cluster. ................................................................................. 113 Tabel 5. 40. Interpolasi 11 titik recall precision terhadap query “Persebaya” pada Sistem Pemerolehan Informasi berbasis Cluster................................................. 114 Tabel 5. 41. Hasil pencarian dengan query “Persebaya” pada Sistem Pemerolehan Informasi Tanpa Cluster. ..................................................................................... 115 Tabel 5. 42. Interpolasi 11 titik recall precision terhadap query “Persebaya” pada Sistem Pemerolehan Informasi tanpa Cluster. .................................................... 115 Tabel 5. 43. Interpolasi 11 titik recall precision dari pengujian 10 query pencarian dengan menggunakan Sistem Pemerolehan Informasi berbasis Cluster............. 117 Tabel 5. 44. Interpolasi 11 titik recall precision dari pengujian 10 query pencarian dengan menggunakan Sistem Pemerolehan Informasi tanpa Cluster ................. 118 Tabel 5. 45. Rata-rata interpolasi 11 titik recall precision ................................. 118 Tabel 5. 46. Hasil penghitungan rata-rata waktu eksekusi ................................. 120. xix.
(22) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. BAB I PENDAHULUAN. 1.1.. Latar Belakang Berita sangat cepat bertambah seiring dengan informasi yang muncul dari suatu peristiwa yang sedang terjadi. Pertambahan jumlah berita ini menimbulkan permasalahan baru yang berasal dari besarnya volume data yang ada. Semakin besar volume data tersebut, maka proses pemerolehan informasi cenderung membutuhkan waktu yang lebih lama. Untuk itu diperlukan penelitian dan pengembangan untuk mengatasi permasalahan di atas. Salah satu penelitian yang diperlukan yaitu mengenai sistem pemerolehan informasi (information retrieval system) dengan cara mengelompokkan koleksi dokumen yang ada. Antar dokumen dalam satu kelompok memiliki kemiripan sedekat - dekatnya, dan antar dokumen dalam kelompok yang berbeda memiliki ketidakmiripan sejauh-jauhnya. Dari pengelompokkan koleksi dokumen ini, proses pencarian tidak membutuhkan waktu yang lama karena sistem tidak perlu mencari pada seluruh koleksi dokumen. Proses pencarian hanya perlu pada kelompok yang terkait dengan query. Ardyan (2016), melakukan penelitian berjudul “Sistem Pemerolehan Informasi Karya Ilmiah Berbasis Cluster dengan G-Means Clustering”. Hasil dari penelitian tersebut yaitu bahwa sistem cenderung memiliki waktu retrieval yang lebih singkat dibandingkan tanpa cluster, yaitu 16.3% lebih singkat. Sebagai tradeoff, sistem pemerolehan informasi berbasis G-Means Clustering memberikan hasil retrieval dengan nilai precision yang lebih rendah yaitu 47%, dibandingkan sistem pemerolahan informasi tanpa cluster yaitu 71%. Singh (2011), melakukan penelitian dengan menerapkan algoritma K-Means, Heuristic K-Means dan Fuzzy C-Means untuk mengelompokkan. 1.
(23) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. dokumen teks. Ia bereksperimen pada representasi data yang berbeda (TF, TF-IDF & Boolean) dan dengan atau tanpa operasi teks seperti stopword dan stemming. Singh melakukan implementasi pada beberapa dataset standar untuk menghitung hasil kinerja algoritma di atas. Hasilnya menunjukkan bahwa representasi TF-IDF dan penggunaan stemming memperoleh pengelompokan yang lebih baik. Selain itu, pengelompokan menggunakan Fuzzy C-Means menghasilkan hasil yang lebih baik dan lebih stabil dari pada K-Means dan Heuristic K-Means. Melihat hasil dari kedua penelitian di atas, maka pada penelitian ini akan dibangun Sistem Pemerolehan Informasi Berita menggunakan representasi data TFIDF yang telah melalui proses stemming dan stopword, kemudian dilakukan pengelompokan dokumen menggunakan algoritma Fuzzy C-Means.. 2.
(24) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 1.2.. Rumusan Masalah Berdasarkan uraian latar belakang di atas, maka rumusan masalah dalam penelitian ini yaitu : 1. Bagaimana implementasi dan hasil clustering menggunakan algoritma Fuzzy C-Means dalam mengelompokkan dokumen berita dan bagaimana evaluasi cluster yang dihasilkan? 2. Bagaimana. cara merancang suatu. sistem. simulasi. clustering. menggunakan algoritma Fuzzy C-Means dalam mengelompokkan dokumen berita? 3. Apakah penerapan algoritma Fuzzy C-Means pada Sistem Pemerolehan Informasi berbasis cluster mampu menurunkan waktu retrieval dan seberapa besar pengaruhnya terhadap nilai precision?. 1.3.. Tujuan Penelitian 1. Mengimplementasikan. algoritma. Fuzzy. C-means. untuk. mengelompokkan dokumen serta mengetahui kualitas cluster yang dihasilkan. 2. Merancang satu sistem simulasi clustering menggunakan algoritma Fuzzy C-Means dalam mengelompokkan dokumen berita. 3. Mengetahui seberapa baik sistem pemerolehan informasi berbasis cluster dalam menurunkan waktu retrieval, dan seberapa besar pengaruhnya terhadap nilai recall dan precision.. 1.4.. Batasan Masalah 1. Dokumen yang digunakan sebagai corpus adalah berita yang diambil dari situs Kompas.com. 2. Dokumen yang digunakan sebagai corpus adalah dokumen berbahasa Indonesia.. 3.
(25) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 1.5.. Sistematika Penulisan BAB I. : PENDAHULUAN. Bab ini berisi pendahuluan yang terdiri dari latar belakang, rumusan masalah, tujuan penelitian, batasan masalah, dan sistematika penulisan.. BAB II. : TINJAUAN PUSTAKA. Bab ini berisi jabaran konsep dan hasil penelitian dari peneliti lain yang berkaitan dengan penelitian ini. Isinya antara lain konsep dasar sistem pemerolehan informasi (information retrieval system), stemming, eliminasi stopword, term weighting, evalusai hasil pemerolehan informasi, serta konsep dasar pengelompokkan teks, dan algoritma Fuzzy C-Means.. BAB III. : METODOLOGI PENELITIAN. Bab ini berisi tentang gambaran umum penelitian, spesifikasi alat, tahaptahap penelitian, alur proses sistem dan contoh pengelompokkan dokumen.. BAB IV. : ANALISIS DAN PERANCANGAN SISTEM. Bab ini berisi analisis kebutuhan sistem, rancangan sistem serta rancangan antaramuka pengguna.. BAB V. : IMPLEMENTASI DAN ANALISIS HASIL. Bab ini berisi tentang implementasi perangkat lunak berdasarkan analisis dan perancangan sebelumnya dan hasil pengujian sistem, serta pembahasan dari hasil pengujian tersebut.. BAB VI. : PENUTUP. Bab ini berisi kesimpulan dan saran dari penelitian yang dilakukan.. DAFTAR PUSTAKA Berisi referensi pustaka yang digunakan dalam penulisan karya ilmiah ini.. 4.
(26) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. BAB II LANDASAN TEORI. 2.1.. Konsep Pemerolehan Informasi Sistem Pemerolehan Informasi (Information Retrieval System) adalah proses mencari material (biasanya dokumen) yang memiliki sifat tidak terstruktur (biasanya teks) untuk memenuhi kebutuhan informasi dan berasal dari koleksi yang sangat besar (biasanya disimpan di komputer) (Manning, 2008). Proses. yang. terlibat. dalam. Pemerolehan. Informasi. yaitu. representasi, penyimpanan, pencarian dan menemukan kembali informasi yang relevan sesuai dengan yang diperlukan oleh pengguna. (Ingwersen, 1992). Information Retrieval System (IRS) menerima query dari user, kemudian dilakukan perangkingan terhadap dokumen pada koleksi. Hasil perangkingan yang diberikan kepada user merupakan dokumen yang menurut sistem relevan terhadap query. Perangkingan dokumen oleh sistem ini dilakukan dengan memberikan pembobotan terhadap query dan seluruh dokumen, lalu menghitung rangking dokumen menggunakan persamaan 2.3.. 2.1.1. Operasi Teks a. Stopword Stopword adalah kata-kata yang sangat sering muncul dalam dokumen, juga merupakan diskriminator yang buruk. Bahkan, ada 80% kata-kata yang tidak berguna dalam suatu koleksi dokumen dalam pemerolehan informasi. Kata-kata seperti inilah yang dinamakan stopwords (Baeza-Yates, 1999). Operasi teks ini diperlukan untuk mengurangi waktu eksekusi query dengan cara menghindari proses list yang. panjang. (Buttcher-Clarke-Commack,. 5. 2010).. Pembuangan.
(27) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. stopword ini akan mengurangi indeks, meningkatkan efisiensi dan keefektifan dari pemerolehan informasi (Croft-Metzler-Strohman, 2010). Contoh stopwords dalam Bahasa Indonesia adalah seperti kata ganti orang (“aku”, “kamu”, “mereka”, “kalian”), kata penghubung (“dan”, “lalu”, “namun”, “tetapi”).. b. Stemming Stemming adalah proses yang digunakan untuk mendapatkan root word atau kata dasar dari suatu kata dalam kalimat dengan cara memisahkan masing-masing kata dari kata dasar dan imbuhannya baik awalan (prefiks) maupun akhiran (sufiks). (Agusta, 2009). Sebagai contoh kata meniduri, ditiduri, menidurkan, tertidur, akan distem ke kata dasarnya yaitu “tidur”.. c. Tokenisasi Tokenisasi adalah proses pemisahan kata dari kumpulannya atau dari kalimat, sehingga menghasilkan suatu kata yang berdiri sendiri baik dalam bentuk perulangan maupun tunggal. Proses ini juga akan menghilangkan tanda baca maupun karakter yang ada pada kata tersebut dan mengubah semua huruf menjadi huruf kecil. (Manning, 2008). Contoh input dan output dari tokenisasi adalah sebagai berikut : Input. : Ibu memasak nasi.. Output. : ibu, memasak, nasi.. 2.1.2. Matriks Dokumen-Istilah (Term-Document Matrix) Term-document matrix adalah matriks yang berisi masing-masing baris sebagai term dan masing masing kolom sebagai dokumen dalam suatu koleksi (Manning, 2008). Matriks ini berisi elemen yang menunjukkan frekuensi kemunculan term dalam suatu dokumen, elemen tersebut bisa berisi nilai nol, yang berarti tidak ada term pada dokumen yang terkait. Dalam bentuk matriks, bisa ditulis seperti dibawah ini :. 6.
(28) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 𝑘1 𝑘2 𝑘3. 𝑑1 𝑓1.1 [ 𝑓2.1 𝑓3.1. 𝑑2 𝑓1.2 𝑓2.2 ] 𝑓3.2. (2.1). dimana fij merupakan frekuensi term ki dalam dokumen d. Contoh visualisasi term-document matrix, seperti dibawah ini : 𝑑1 𝑡𝑒𝑟𝑚 1 𝑡𝑒𝑟𝑚 2 𝑡𝑒𝑟𝑚3 𝑡𝑒𝑟𝑚4 𝑡𝑒𝑟𝑚5. 1 1 1 3 [ 2. 𝑑2. 𝑑3. 𝑑4. 𝑑5. 𝑑6. 2 3 1 1 0. 1 2 3 0 0. 0 1 1 0 1. 1 2 3 0 1. 1 0 1 1 2 ]. Gambar 2. 1. Visualisasi Term-Document Matrix. 2.1.3. Pembobotan TF-IDF TF-IDF atau Term Frequency (TF) dan Inverse Document Frequency (IDF) adalah skema pembobotan term yang paling popular pada Pemerolehan Informasi (Baeza-Yatez, 2010). Misalnya, wij adalah bobot term dari pasangan (ki, dj) 𝑊𝑖𝑗 = (1 + log 𝑓𝑖𝑗 ) ∗ 𝑙𝑜𝑔. 𝑁 𝑛𝑖. (2.2). dimana, •. fij. = frekuensi kemunculan term i pada dokumen j.. •. N. = jumlah seluruh dokumen.. •. ni. = jumlah dokumen yang mengandung term i.. 2.1.4. Model Ruang Vektor (Vector Space Model) Vector Space Model adalah pemodelan yang berbasiskan token yang memungkinkan partial maching dalam pemeringkatan dokumen, Berikut beberapa prinsip dasar yang digunakan dalam Vector Space Model (Manning, 2009) :. 7.
(29) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 1. D = {d0, d1, ..., dn} adalah himpunan N dokumen dalam koleksi, d mengacu pada sembaran dokumen di Є D. Dokumen sebagai vektor token. 2. q adalah query yang direpresentasikan sebagai sebuah vector berdimensi m mirip dengan dokumen. 3. T ={t0, t1, ..., tm} adalah himpunan m token dalam dokumen. 4. Kesamaan vektor dokumen dan query dihitung berdasarkan kesamaan antar vektor. Dokumen-dokumen hasil pencarian berupa dokumen yang telah terurutkan berdasar tingkat kesamaan dokumen dengan query. Tingkat atau ukuran kesamaan sim(dj, q) antara dokumen di dengan query q dihitung dengan menggunakan persamaan kosinus sudut antara di dan q sebagai berikut : 𝑑𝑗 ∙ 𝑞 𝐶𝑜𝑠𝑆𝑖𝑚(𝑑𝑗 , 𝑞) = = ‖𝑑𝑗 ‖ × ‖𝑞‖. ∑𝑛𝑖=1(𝑊𝑖𝑗 ∙ 𝑊𝑖𝑞 ) √∑𝑛𝑖=1 𝑊𝑖𝑗 2. ∙. (2.3). ∑𝑛𝑖=1 𝑊𝑖𝑞 2. 2.1.5. Evaluasi Pemerolehan Informasi Dasar pengukuran keefektifan Sistem Pemerolehan Informasi yaitu recall dan precision. Recall digunakan untuk mengukur seberapa baik suatu sistem dalam melakukan pencarian terhadap dokumen yang relevan pada query yang diberikan. Sementara itu, precision digunakan untuk mengukur seberapa baik sistem tersebut menolak atau mengeliminasi dokumendokumen yang tidak relevan (Croft-Metzler-Strohman, 2010). Rumus recall dan precisian adalah sebagai berikut (Manning, 2008) :. 𝑅𝑒𝑐𝑎𝑙𝑙 =. ∑ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ ∑ 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑟𝑒𝑙𝑒𝑣𝑎𝑛. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =. ∑ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑟𝑒𝑙𝑒𝑣𝑎𝑛 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ ∑ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒ℎ 8. (2.4). (2.5).
(30) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Average Precision (AVP) adalah suatu ukuran evaluasi Sistem Pemerolehan Informasi yang diperoleh dengan menghitung rata-rata precision pada berbagai tingkat recall yang ditemu kembalikan. Tingkat recall standar yang digunakan adalah 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Precision yang diinterpolasi pada standar recall ke j adalah precision maksimum pada suatu recall level antara level ke j dan level ke (j+1) : 𝑝(𝑟𝑗 ) =. 2.2.. 𝑚𝑎𝑥 𝑟𝑗 ≤ 𝑟 ≤ 𝑟𝑗+1. 𝑝(𝑟). (2.6). Konsep Pengelompokan Dokumen. 2.2.1. Metode Clustering pada Pemerolehan Informasi. Clustering adalah suatu proses untuk mengelompokkan data ke dalam beberapa cluster atau kelompok sehingga data dalam cluster memiliki tingkat kemiripan yang maksimum (Tan, 2006). Pada pemerolehan informasi, tujuan algoritma clustering yaitu mengelompokkan sekumpulan dokumen, dimana antar dokumen dalam satu cluster yang sama seharusnya memiliki tingkat kemiripan yang tinggi, dan antar dokumen di dalam cluster yang berbeda seharusnya memiliki tingkat perbedaan yang setinggi-tingginya (Manning, 2008).. 2.2.2. Hipotesis Cluster Hipotesis cluster berisi asumsi dasar ketika menerapkan metode clustering pada dokumen di dalam pemerolehan informasi. Hipotesis cluster menyebutkan bahwa dokumen dalam satu cluster yang sama, juga memiliki sifat yang sama, serta berkenaan dengan relevansi terhadap kebutuhan informasi. Hipotisis juga menyatakan jika ada dokumen dari cluster yang relevan dengan permintaan pencarian, maka ada kemungkinan dokumen lain dari cluster yang sama juga relevan. (Manning, 2008).. 9.
(31) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 2.2.3. Fuzzy C-Means Fuzzy C-Means (FCM) adalah suatu teknik pengelompokkan data yang mana keberadaan tiap-tiap titik data dalam suatu cluster ditentukan oleh derajat keanggotannya. Teknik ini pertama kali dikenalkan oleh Jim Bezdek pada tahun 1981. Konsep dasar FCM, pertama kali adalah memasukkan data X yang akan di cluster berupa matriks n x m (n adalah jumlah sample data, dan m adalah attribut setiap data). Sehingga Xij = data sampel ke-i (i=1,2,...,n),. attribut ke-j (j=1,2,...,m) Misalnya akan melakukan pengelompokan sebanyak c cluster. Tiaptiap titik data memiliki derajat keanggotaan untuk tiap-tiap cluster dan dapat. dinotasikan sebagai berikut : µ𝑖𝑘 Є [0,1]. (1 ≤ k ≤ c, 1 ≤ i ≤ n ). (2.7). dimana µik adalah derajat keanggotaan data ke-i pada cluster ke-k. Matriks partisi untuk derajat keanggotaan didefinisikan sebagai berikut : µ1.1 ⋯ µ1𝑘 ⋱ ⋮ ) (2.8) µ𝑖𝑘 = ( ⋮ µ𝑖1 ⋯ µ𝑖𝑘 dimana derajat keanggotaan tersebut harus memenuhi kondisi : 𝑐. ∑ µ𝑖𝑘 = 1. (2.9). 𝑘=1. Hal ini berarti derajat keanggotaan suatu data untuk semua cluster harus berjumlah satu. Langkah selanjutnya yaitu menentukan pusat cluster, menggunakan persamaan :. ∑𝑛𝑖=1((µ𝑖𝑘 )𝑤 ∗ 𝑋𝑖𝑗 ) 𝑉𝑘𝑗 = ∑𝑛𝑖=1(µ𝑖𝑘 )𝑤. (2.10). dimana Vkj adalah lokasi rata-rata cluster ke-k. Parameter w adalah bobot pada derajat keanggotaan. Parameter ini dipilih sesuai dengan masalah yang dipertimbangkan. Semakin tinggi nilai w, maka partisi matriks akan semakin kabur. (George J. Klir, 1995). Kemudian menghitung fungsi objektif menggunakan persamaan :. 10.
(32) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 𝑛. 𝑐. 𝑚. 𝑃𝑡 = ∑ ∑ ([∑(𝑋𝑖𝑗 − 𝑉𝑘𝑗 )2 ] (µ𝑖𝑘 )𝑤 ) 𝑖=1 𝑘=1. (2.11). 𝑗=1. Ketika fungsi objektif (Pt) mencapai minimum, yang menunjukkan bahwa jumlah fluktuasi dalam cluster memiliki nilai minimum, maka diperoleh matriks partisi yang optimal. Jika matriks partisi belum optimal maka dilakukan perbaikan matriks partisi tiap-tiap titik data, menggunakan persamaan : 1. µ𝑖𝑘 =. 2 𝑤−1 [∑𝑚 𝑗=1(𝑋𝑖𝑗 − 𝑉𝑘𝑗 ) ]. ∑𝑐𝑘=1[∑𝑚 𝑗=1(𝑋𝑖𝑗 − 𝑉𝑘𝑗. 1 𝑤−1 2 ) ]. (2.12). Selanjutnya dilakukan kembali perhitungan pusat cluster dan perhitungan fungsi objektif hingga diperoleh matriks partisi yang optimal. Output dari Fuzzy C-Means merupakan deretan pusat cluster dan beberapa derajat keanggotaan untuk tiap-tiap titik data. Derajat keanggotaan. digunakan untuk menunjukkan kecenderungan suatu dokumen untuk masuk menjadi anggota kelompok, sedangkat pusat cluster digunakan untuk mengetahui kecenderungan suatu dokumen baru untuk masuk menjadi anggota kelompok.. 11.
(33) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 2.2.4. Algoritma Fuzzy C-Means Algoritma Fuzzy C-Means menurut Yan (dalam Kusumadewi, 2010) memiliki tahapan sebagai berikut : 1. Input data X yang akan di cluster, yaitu berupa matriks berukuran n x m (n=jumlah sampel data, m=attribut setiap data). Xij = data sampel ke-i (i=1,2,...,n), attribut ke-j (j=1,2,...,m) 2. Tentukan : -. Jumlah cluster. = c;. -. Pangkat/Pembobot. = w;. -. Maksimum iterasi. = maxIter;. -. Error terkecil yang diharapkan. = epsilon;. -. Fungsi objektif awal. = P0 = 0;. -. Iterasi Awal. = t = 1;. 3. Bangkitkan bilangan random µik, i=1,2,...,n; k=1,2,...,c; sebagai elemenelemen matriks partisi awal U. Dimana µik harus memenuhi kondisi : 𝑐. (2.13). ∑ µ𝑖𝑘 = 1 𝑘=1. 4. Hitung pusat cluster ke-k: Vkj, dengan k=1,2,...,c; dan j=1,2,...,m. 𝑉𝑘𝑗 =. ∑𝑛𝑖=1((µ𝑖𝑘 )𝑤 ∗ 𝑋𝑖𝑗 ) ∑𝑛𝑖=1(µ𝑖𝑘 )𝑤. (2.14). 5. Hitung fungsi objektif pada iterasi ke-t, Pt : 𝑛. 𝑐. 𝑚. 𝑃𝑡 = ∑ ∑ ([∑(𝑋𝑖𝑗 − 𝑉𝑘𝑗 )2 ] (µ𝑖𝑘 )𝑤 ) 𝑖=1 𝑘=1. (2.15). 𝑗=1. modifikasi hitung jarak menggunakan cosinus similarity : 𝑛. 𝑐. 𝑚. 𝑃𝑡 = ∑ ∑ 𝑖=1 𝑘=1. ∑ ([. 𝑋𝑖𝑗 × 𝑉𝑘𝑗. 𝑗=1 √𝑋𝑖𝑗. 2. × 𝑉𝑘𝑗. 12. (µ𝑖𝑘 )𝑤. (2.16). 2. ]. ).
(34) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 6. Hitung perubahan matriks partisi : 1. µ𝑖𝑘 =. 2 𝑤−1 [∑𝑚 𝑗=1(𝑋𝑖𝑗 − 𝑉𝑘𝑗 ) ]. ∑𝑐𝑘=1[∑𝑚 𝑗=1(𝑋𝑖𝑗 − 𝑉𝑘𝑗. 1 𝑤−1 2 ) ]. (2.17). modifikasi hitung jarak menggunakan cosinus similarity : −1 𝑤−1. ∑𝑚 𝑗=1 µ𝑖𝑘 =. [. 𝑋𝑖𝑗 × 𝑉𝑘𝑗 √𝑋𝑖𝑗 2 × 𝑉𝑘𝑗 2. ] −1 𝑤−1. ∑𝑐𝑘=1 ∑𝑚 𝑗=1 [. (2.18). 𝑋𝑖𝑗 × 𝑉𝑘𝑗 √𝑋𝑖𝑗 2 × 𝑉𝑘𝑗 2. ]. dengan : i=1,2,...,n; dan k=1,2,...,c. 7. Cek kondisi berhenti jika : a. Jika : ( | Pt – Pt-1 | < epsilon ) atau ( t>MaxIter) maka berhenti. b. Jika tidak t = t + 1, ulangi langkah 4.. 2.2.5. Penegasan (defuzzy) Defuzzifikasi digunakan menerjemahkan himpunan nilai keluaran kedalam nilai yang tegas. Ada beberapa metode defuzzifikasi antara lain : 1. Metode Centroid Pada metode ini, solusi crisp diperoleh dengan cara mengambil titik pusat (z*) daerah fuzzy. 2. Metode Bisektor Pada metode ini, solusi crisp diperoleh dengan cara mengambil nilai pada domain fuzzy yang memiliki nilai keanggotaan setengah dari jumlah total nilai keanggotaan pada daerah fuzzy. 3. Metode Mean of Maximum (MOM) Pada metode ini, solusi crisp diperoleh dengan cara mengambil nilai rata-rata domain yang memiliki nilai keanggotaan maximum. 4. Metode Largest of Maximum (LOM). 13.
(35) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Pada metode ini, solusi crisp diperoleh dengan cara mengambil nilai terbesar dari domain yang memiliki nilai keanggotaan maximum. 5. Metode Smallest of Maximum (SOM) Pada metode ini, solusi crisp diperoleh dengan cara mengambil nilai terkecil dari domain yang memiliki nilai keanggotaan maximum.. 14.
(36) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 2.2.6. Evaluasi Cluster 2.2.6.1.. Purity Purity adalah salah satu pengukuran dalam evaluasi cluster. Untuk menghitung purity, tiap cluster diberikan label kelas berdasarkan label paling sering muncul dalam cluster tersebut, dan kemudian akurasi cluster dihitung dengan jumlah data yang benar dibagi dengan banyak data (Chen, 2010). Rentang purity dari 0 hingga 1. Semakin besar nilai purity, semakin baik cluster tersebut. Formula purity adalah sebagai. berikut 𝑝𝑢𝑟𝑖𝑡𝑦(Ω, Γ) =. (Chen,. 2010). 1 𝑚𝑎𝑥 ∑ 𝑗 |ω𝑗 ∩ 𝑐𝑘 | 𝑁. : (2.19). 𝑘. dimana, •. Ω. = {ω1 , ω2 , … , ω𝑘 }. : himpunan cluster. •. Γ. = {𝑐1 , c2 , … , c𝑗 }. : himpunan kelas. •. N. : jumlah seluruh dokumen.. 2.2.7. Contoh Penerapan Fuzzy C-Means Sebagai contoh perhitungan Fuzzy C-Means diberikan 6 contoh dokumen berita seperti berikut : Tabel 2. 1. Contoh Dokumen yang akan di Cluster. NO 1 2 3 4 5 6. DOKUMEN John memberi buku-buku cinta kepada Mary Buku-buku cinta yang diberi kepada Mary adalah tanda cinta John Apakah Mary akan mencintai John? Apakah pertemuan Jokowi-Prabowo berhasil? Pertemuan Jokowi-Prabowo untuk Persatuan Indonesia Inilah efek pertemuan Jokowi-Prabowo untuk Indonesia Setelah itu, 6 dokumen di atas akan melalui proses tokenisasi,. eliminasi stopword dan stemming. Hasil dari proses ini, maka setiap dokumen akan menjadi beberapa token seperti contoh berikut ini :. 15.
(37) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Tabel 2. 2. Dokumen yang telah melalui proses operasi teks. DOKUMEN D1 D2 D3 D4 D5 D6. Token john, buku, buku, cinta, mary buku, buku, cinta, mary, tanda, cinta, john mary, cinta, john temu, jokowi, prabowo, berhasil temu, jokowi, prabowo, satu, indonesia efek, temu, jokowi, prabowo, indonesia. Kemudian dilakukan pembentukan term-document matrix menggunakan persamaan (2.1) Tabel 2. 3. Term-Document Matrix. Frekuensi term ki pada dokumen dj (fij) d1 d2 d3 d4 d5 d6 1 1 1 0 0 0 2 2 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 1 1 1. Term ke-i cinta buku prabowo mary efek john hasil satu jokowi indonesia tanda temu. Setelah term-document matrix terbentuk, maka proses selanjutnya adalah menghitung bobot untuk term pada setiap dokumen menggunakan persamaan (2.2). Tabel 2. 4. Pembobotan Term-Document Matrix. Term. 𝒏𝒊. cinta buku prabowo mary efek john hasil. 3 2 3 3 1 3 1. 𝑾𝒊𝒋 d1 0.4771 0.7833 0 0.4771 0 0.4771 0. d2 d3 d4 d5 d6 0.4771 0.4771 0 0 0 0.7833 0 0 0 0 0 0 0.4771 0.4771 0.4771 0.4771 0.4771 0 0 0 0 0 0 0 0.8451 0.4771 0.4771 0 0 0 0 0 0.8451 0 0 16.
(38) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. satu jokowi indonesia tanda temu. 1 3 2 1 3. 0 0 0 0 0. 0 0 0 0.8451 0. 0 0 0 0 0. 0 0.4771 0 0 0.4771. 0.8451 0 0.4771 0.4771 0.6021 0.6021 0 0 0.4771 0.4771. Kemudian data pada tabel 3.4 ditransponse, di mana kolom pada term-document matrix yang telah dibobot akan merepresentasikan term, sementara baris akan merepresentasikan dokumen. Apabila 6 dokumen di atas akan dijadikan 2 kelompok, maka dengan menggunakan Fuzzy C-Means dapat ditetapkan nilai awal sebagai berikut : o Jumlah cluster. =c. = 2;. o Pangkat. =w. = 2;. o Maksimum iterasi. = maxIter. = 100;. o Error terkecil yang diharapkan. = epsilon. = 10-5. o Fungsi objektif awal. = P0. =0. o Iterasi awal. =t. =1. Berikut data yang akan di cluster: Tabel 2. 5. Data yang siap di Cluster Dokumen D1 D2 D3 D4 D5 D6. Data yang di cluster 𝑿𝒊𝟏 𝑿𝒊𝟐 𝑿𝒊𝟑 𝑿𝒊𝟒 𝑿𝒊𝟓 𝑿𝒊𝟔 𝑿𝒊𝟕 𝑿𝒊𝟖 𝑿𝒊𝟗 𝑿𝒊𝟏𝟎 𝑿𝒊𝟏𝟏 𝑿𝒊𝟏𝟐 0.4771 0.7833 0 0.4771 0 0.4771 0 0 0 0 0 0 0.4771 0.7833 0 0.4771 0 0.4771 0 0 0 0 0.8451 0 0.4771 0 0 0.4771 0 0.4771 0 0 0 0 0 0 0 0 0.4771 0 0 0 0.8451 0 0.4771 0 0 0.4771 0 0 0.4771 0 0 0 0 0.8451 0.4771 0.6021 0 0.4771 0 0 0.4771 0 0.8451 0 0 0 0.4771 0.6021 0 0.4771. Misalkan matriks partisi awal U yang terbentuk secara random adalah sebagai berikut 0.31671 0.29714 0.24466 U= 0.89865 0.62841 (0.61195. 0.78910 0.78355 0.73345 0.25116 0.44437 0.46427). 17.
(39) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Pada Iterasi pertama dengan menggunakan persamaan (2.14) : ∑6𝑖=1((µ𝑖𝑘 )2 ∗ 𝑋𝑖𝑗 ) 𝑉𝑘𝑗 = ∑6𝑖=1(µ𝑖𝑘 )2 dapat dihitung 2 pusat cluster, Vkj dengan k=1,2; dan j=1,2,....,12; sebagai berikut : Pusat Cluster (𝑽𝒌𝒋 ) 0.1176 0.1683 0.3596 0.1176 0.0891 0.1176 0.4371 0.1106 0.3596 0.1423 0.0598 0.3596 0.3211 0.2830 0.1560 0.3211 0.1490 0.3211 0.0021 0.1253 0.1560 0.1954 0.1907 0.1560. Tabel 3.6 dan Tabel 3.7 berikut menunjukkan contoh perhitungan pusat cluster. Tabel 2. 6. Perhitungan Pusat Cluster 1 Data ke. (µ𝒊𝟏 ). 𝟐. 1 0.2420 2 0.1188 3 0.0529 4 0.8685 5 0.2198 6 0.1771 Ʃ 1.6791 ∑ ((µ𝒊𝟏 )𝟐 𝑿𝒊𝒋 ) ∑ (µ𝒊𝟏 )𝟐. 𝟐. (µ𝒊𝟏 ) 𝑿𝒊𝒋. 𝟐. (µ𝒊𝟏 ) 𝑿𝒊𝒋. 𝟐. (µ𝒊𝟏 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟏 ) 𝑿𝒊𝒋. (µ𝒊𝟏 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟏 )𝟐 𝑿𝒊𝒋 (µ𝒊𝟏 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟏 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟏 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟏 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟏 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟏 )𝟐 𝑿𝒊𝒋. 0.1155 0.1896 0 0.1155 0 0.1155 0 0 0 0 0 0 0.0567 0.0931 0 0.0567 0 0.0567 0 0 0 0 0.1004 0 0.0252 0 0 0.0252 0 0.0252 0 0 0 0 0 0 0 0 0.4144 0 0 0 0.7340 0 0.4144 0 0 0.4144 0 0 0.1049 0 0 0 0 0.1857 0.1049 0.1323 0 0.1049 0 0 0.0845 0 0.1496 0 0 0 0.0845 0.1066 0 0.0845 0.1974 0.2826 0.6037 0.1974 0.1496 0.1974 0.7340 0.1857 0.6037 0.2389 0.1004 0.6037 0.1176 0.1683 0.3596 0.1176 0.0891 0.1176 0.4371 0.1106 0.3596 0.1423 0.0598 0.3596. Tabel 2. 7. Perhitungan Pusat Cluster 2 Data ke. (µ𝒊𝟐 )𝟐. 1 0.2581 2 0.4294 3 0.5929 4 0.0046 5 0.2822 6 0.3355 Ʃ 1.9027 ∑ ((µ𝒊𝟐 )𝟐 𝑿𝒊𝒋 ) ∑ (µ𝒊𝟐 )𝟐. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋 (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. (µ𝒊𝟐 )𝟐 𝑿𝒊𝒋. 0.1231 0.2022 0 0.1231 0 0.1231 0 0 0 0 0 0 0.2049 0.3363 0 0.2049 0 0.2049 0 0 0 0 0.3629 0 0.2829 0 0 0.2829 0 0.2829 0 0 0 0 0 0 0 0 0.0022 0 0 0 0.0039 0 0.0022 0 0 0.0022 0 0 0.1346 0 0 0 0 0.2385 0.1346 0.1699 0 0.1346 0 0 0.1601 0 0.2835 0 0 0 0.1601 0.2020 0 0.1601 0.6109 0.5385 0.2969 0.6109 0.2835 0.6109 0.0039 0.2385 0.2969 0.3719 0.3629 0.2969 0.3211 0.2830 0.1560 0.3211 0.1490 0.3211 0.0021 0.1253 0.1560 0.1954 0.1907 0.1560. Fungsi objektif pada iterasi pertama Pi dapat dihitung dengan menggunakan persamaan (2.16) sebagai : 6. 2. 12. 𝑃1 = ∑ ∑ 𝑖=1 𝑘=1. ∑ ([. 𝑋𝑖𝑗 × 𝑉𝑘𝑗. 𝑗=1 √𝑋𝑖𝑗. 18. 2. × 𝑉𝑘𝑗. (µ𝑖𝑘 )2. = 2.4092. 2. ]. ).
(40) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Detail perhitungan fungsi objektif ini dapat dilihat pada Tabel 3.8 berikut :. Tabel 2. 8. Detail Perhitungan Fungsi Objektif 𝟏𝟐. ∑ 𝑿𝒊𝒋 𝟐. (𝑿𝒊𝒋 )𝟐. Data ke. 𝒋=𝟏. 1 2 3 4 5 6. 0.2276 0.6136 0 0.2276 0 0.2276 0 0 0 0 0 0 1.2965 0.2276 0.6136 0 0.2276 0 0.2276 0 0 0 0 0.7142 0 2.0107 0.2276 0 0 0.2276 0 0.2276 0 0 0 0 0 0 0.6829 0 0 0.2276 0 0 0 0.7142 0 0.2276 0 0 0.2276 1.3971 0 0 0.2276 0 0 0 0 0.7142 0.2276 0.3625 0 0.2276 1.7596 0 0 0.2276 0 0.7142 0 0 0 0.2276 0.3625 0 0.2276 1.7596. Tabel 2.8 lanjutan .... 𝟏𝟐. Data ke. (𝑿𝒊𝒋 × 𝑽𝟏𝒋 ). 1 2 3 4 5 6. 0.0561 0.1319 0 0.0561 0 0.0561 0 0 0 0 0 0 0.0561 0.1319 0 0.0561 0 0.0561 0 0 0 0 0.0505 0 0.0561 0 0 0.0561 0 0.0561 0 0 0 0 0 0 0 0 0.1716 0 0 0 0.3694 0 0.1716 0 0 0.1716 0 0 0.1716 0 0 0 0 0.0935 0.1716 0.0857 0 0.1716 0 0 0.1716 0 0.0753 0 0 0 0.1716 0.0857 0 0.1716. ∑ 𝑿𝒊𝒋 × 𝑽𝟏𝒋 𝒋=𝟏. 0.3001 0.3507 0.1683 0.8841 0.6938 0.6756. Tabel 2.8 lanjutan .... 𝟏𝟐. Data ke. (𝑿𝒊𝒋 × 𝑽𝟐𝒋 ). 1 2 3 4 5 6. 0.1532 0.2217 0 0.1532 0 0.1532 0 0 0 0 0 0 0.1532 0.2217 0 0.1532 0 0.1532 0 0 0 0 0.1612 0 0.1532 0 0 0.1532 0 0.1532 0 0 0 0 0 0 0 0 0.0745 0 0 0 0.0017 0 0.0745 0 0 0.0745 0 0 0.0745 0 0 0 0 0.1059 0.0745 0.1177 0 0.0745 0 0 0.0745 0 0.1259 0 0 0 0.0745 0.1177 0 0.0745. ∑ 𝑿𝒊𝒋 × 𝑽𝟐𝒋 𝒋=𝟏. 0.6813 0.8424 0.4596 0.2251 0.4469 0.4670. Tabel 2.8 lanjutan .... 12. ∑. 𝑋𝑖𝑗 × 𝑉𝑘𝑗. 𝑗=1 √𝑋𝑖𝑗 2. × 𝑉𝑘𝑗 2. 0.31671 0.29714 0.24466 0.89865 0.62841 0.61195. 12. ∑. 12. 𝑋𝑖𝑗 × 𝑉𝑘𝑗. 𝑗=1 √𝑋𝑖𝑗 2. ∑. 𝑗=1 √𝑋𝑖𝑗. × 𝑉𝑘𝑗 2 [. 2. × 𝑉1𝑗. L1 0.0766 0.0353 0.0129 0.7805 0.1381 0.1083. 0.7891 0.78355 0.73345 0.25116 0.44437 0.46427. 19. 12. 𝑋𝑖𝑗 × 𝑉𝑘𝑗. (µ𝑖1 )2 2. ]. ∑. 𝑋𝑖𝑗 × 𝑉𝑘𝑗. 𝑗=1 √𝑋𝑖𝑗. [. 2. × 𝑉2𝑗. (µ𝑖2 )2 2. L1+L2. ]. L2 0.2037 0.3365 0.4349 0.0012 0.1254 0.1558 Fungsi Objektif = Ʃ. 0.2803 0.3718 0.4478 0.7817 0.2635 0.2641 2.4092.
(41) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Kemudian memperbaiki matriks partisi U berdasarkan persamaan (2.18) −1 2−1. ∑12 𝑗=1 [. µ𝑖𝑘 =. 𝑋𝑖𝑗 × 𝑉𝑘𝑗 √𝑋𝑖𝑗 2 × 𝑉𝑘𝑗 2. ] −1 2−1. ∑2𝑘=1 ∑12 𝑗=1 [. 𝑋𝑖𝑗 × 𝑉𝑘𝑗 √𝑋𝑖𝑗 2 × 𝑉𝑘𝑗 2. ]. Perhitungan derajat keanggotaan baru yang terhimpun dalam Matriks Partisi terlihat pada Tabel 3.9 Tabel 2. 9. Detil Perhitungan Derajat Keanggotaan Baru (Matriks Partisi) 12. Dokumen. ∑. −1 2−1. 𝑋𝑖𝑗 × 𝑉𝑘𝑗. 𝑗=1 √𝑋𝑖𝑗. [ D1 D2 D3 D4 D5 D6. 2. × 𝑉1𝑗. 12. ∑ 2. ]. −1 2−1. 𝑋𝑖𝑗 × 𝑉𝑘𝑗. 𝑗=1 √𝑋𝑖𝑗. [. L1 3.1575 3.3654 4.0873 1.1128 1.5913 1.6341. 0.7136 0.7250 0.7499 U= 0.2184 0.4142 (0.4314. 2. × 𝑉2𝑗. 2. −1 2−1. 12. ∑ ∑ 2. ]. 𝑋𝑖𝑗 × 𝑉𝑘𝑗. 𝑘=1 𝑗=1 √𝑋𝑖𝑗. [. L2 1.2673 1.2762 1.3634 3.9815 2.2504 2.1539. 2. × 𝑉𝑘𝑗. LT=L1+L2 4.4248 4.6417 5.4507 5.0943 3.8417 3.7880. µ𝑖1. µ𝑖2. L1/LT 0.7136 0.7250 0.7499 0.2184 0.4142 0.4314. L2/LT 0.2864 0.2750 0.2501 0.7816 0.5858 0.5686. 2. ]. 0.2864 0.2750 0.2501 0.7816 0.5858 0.5686). Berikutnya cek kondisi berhenti. Karena |P1 – P0| = |2.4092 – 0| = 2.4092 > epsilon (=105), dan iterasi 1 < maxIter (=100), maka lanjutkan ke iterasi ke-2 (t=2). Pada iterasi ke-2, dapat dihitung kembali 2 pusat cluster, Vkj dengan k=1,2; dan j=1,2,....,12; sebagai berikut :. 20.
(42) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Pusat Cluster (𝑽𝒌𝒋 ) 0.4196 0.4063 0.0954 0.3817 0.0777 0.3817 0.0198 0.0716 0.0954 0.1063 0.2230 0.0954 0.0775 0.0825 0.4068 0.0703 0.1831 0.0703 0.3434 0.1942 0.4068 0.2687 0.0425 0.4068. Fungsi objektif pada iterasi pertama P1 dapat sebagai 6. 2. 12. 𝑃1 = ∑ ∑ 𝑖=1 𝑘=1. ∑ ([. 𝑋𝑖𝑗 × 𝑉𝑘𝑗. 𝑗=1 √𝑋𝑖𝑗 2. × 𝑉𝑘𝑗. (µ𝑖𝑘 )2. = 2.53341. 2. ]. ). Kemudian perbaiki matriks partisi U 0.1560 0.1558 0.1514 U= 0.8463 0.7710 (0.7656. 0.8440 0.8442 0.8486 0.1537 0.2290 0.2344). Berikutnya cek kondisi berhenti. Karena |P2 – P1| = |2.5334 - 2.4092| = 0.1242 > epsilon (=105), dan iterasi 2 < maxIter (=100), maka lanjutkan ke iterasi ke-3 (t=3).. Demikian seterusnya, hingga : |Pt-Pt-1| < epsilon atau t > maxIter. Untuk kasus ini, proses baru akan berhenti setelah iterasi ke-8.. Pada iterasi ke-8 ini, 2 pusat cluster, Vkj dengan k=1,2; dan j=1,2,....,12; sebagai berikut : Pusat Cluster (𝑽𝒌𝒋 ) 1.2324 7.4426 6.9502 7.4359 1.2324 1.0600 1.2324 0.5241 0.5222 0.47712 0.47712 0.2817 ×10-39 ×10-40 ×10-40 ×10-40 ×10-39 ×10-39 ×10-39 5.6575 5.6275 5.1415 5.1415 3.0358 0.47712 0.2817 0.2817 0.2817 0.47712 0.40137 0.47712 ×10-46 ×10-46 ×10-46 ×10-46 ×10-46. Dari matriks partisi U tersebut dapat diperoleh informasi mengenai kecenderungan dokumen untuk masuk ke kelompok (cluster) yang mana. Suatu dokumen memiliki derajat keanggotaan tertentu untuk menjadi. 21.
(43) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. anggota. kelompok.. Derajat. keanggotaan. terbesar. menunjukkan. kecenderungan tertinggi suatu dokumen untuk masuk menjadi anggota kelompok. Tabel 3.10 menunjukkan derajat keanggotaan tiap dokumen pada setiap kelompok (cluster) beserta kecenderungan tertinggi suatu dokumen untuk masuk dalam suatu kelompok. Tabel 2. 10. Tabel Derajat Keanggotaan Tiap Data Pada Setiap Cluster Dokumen Derajat kenggotaan data pada Cluster keke 1 2 1 1.07806 × 10-45 1.0 2 1.07806 × 10-45 1.0 3 1.07804 × 10-45 1.0 4 1.0 2.55204 × 10-39 5 1.0 2.60557 × 10-39 6 1.0 2.60606 × 10-39. Data Cenderung Masuk ke Cluster ke1 2 * * * * * *. Dari Tabel 3.10 tersebut dapat disimpulkan bahwa kelompok pertama (Cluster ke-1), terdiri dari dokumen 4,5, dan 6. Sedangkan kelompok kedua (Cluster ke-2, terdiri dari dokumen 1,2, dan 3.. 22.
(44) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. BAB III METODOLOGI PENELITIAN. 3.1.. Gambaran Umum Penelitian Penelitian ini dilakukan untuk mengetahui seberapa baik cluster yang dihasilkan dari proses pengelompokan dokumen dan mengetahui seberapa baik sistem pemerolehan informasi berbasis cluster dalam menurunkan waktu retrieval serta seberapa besar pengaruhnya terhadap nilai precision.. 3.2.. Sumber Data Data yang digunakan dalam penelitian ini adalah 100 berita berbahasa indonesia yang di ambil dari situs Kompas.com. Berita terdiri dari 4 kategori, di mana setiap kategori terdiri dari 25 berita. Berita disalin satupersatu dari situs ke dalam file bertipe *.txt, kemudian dijadikan satu kedalam suatu folder. Penamaan file menggunakan kategori dan judul berita seperti pada Gambar 3.1. Contoh isi file berita bisa dilihat pada Gambar 3.2.. Gambar 3. 1. Penamaan File Berita. 23.
(45) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. Gambar 3. 2. Contoh isi salah satu file berita.. 3.3.. Spesifikasi Alat Spesifikasi alat yang akan digunakan dalam proses perancangan sistem adalah : a.. b.. Spesifikasi Hardware -. Processor Intel Core i5-5200U CPU@ 2.20Ghz (4 CPUs). -. RAM 8 GB DDR3L. -. SSD 256 GB + HDD 1TB. -. VGA Intel(R) HD Graphics 5500 + NVIDIA GeForce 940M. Spesifikasi Software -. Windows 10 Pro N 64 bit Operating System. -. IntelliJ IDEA 2019.3.6. -. Framework Spring Boot. 24.
(46) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. 3.4.. Tahap-tahap Penelitian. 3.4.1. Pengembangan Perangkat Lunak Pengembangan sistem pemerolehan informasi berbasis cluster ini menggunakan metode Framework for the Application System Thinking (FAST) dengan tahap sebagai berikut : a.. Analisis Sistem 1. Analisis Masalah Hal yang dilakukan dalam tahap ini adalah analisis masalah yang dapat dipecahkan dengan pembangunan sistem. 2. Analisis Kebutuhan Hal yang dilakukan dalam tahap ini adalah identifikasi kebutuhan sistem dengan mengumpulkan data kebutuhan pengguna sistem yang kemudian dimodelkan dalam diagram Use Case.. b.. Desain Sistem a. Logical Design Hal yang dilakukan dalam tahap ini adalah penggambaran model data, proses dan antarmuka dalam bentuk logical. b. Physical Design and Integration Implemantasi secara teknis dengan pembuatan desain antarmuka secara fisik dan desain basis data apabila diperlukan. c. Construction and Testing Pengembangan. rancangan. ke. dalam. program. dengan. menggunakan bahasa pemrograman Java dan Framework Spring Boot.. 3.4.1. Uji Coba Relevansi Uji coba dilakukan untuk melihat unjuk kerja sistem yang telah dibangun. Parameter untuk uji coba yaitu tingkat relevansi dari setiap. 25.
(47) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI. query yang diberikan ke sistem. Hasil dari uji coba ini akan menjadi sumber data untuk analisis hasil uji coba. 3.4.1. Analisis Hasil Uji Coba Relevansi Analisis hasil uji coba dilakukan dengan melihat data yang didapatkam untuk mencari hasil retrieval dan precision. Tujuan dari analisis ini untuk mendapatkan kesimpulan dari tujuan penelitian.. 3.5.. Perancangan Penelitian. 3.5.1. 3.5.1.1.. Alur Proses Sistem Deskripsi Sistem Fungsi utama sistem yang akan dibangun dalam penelitian ini adalah sistem yang mampu mengelompokkan koleksi dokumen dan melakukan pencarian dokumen berdasarkan input query pengguna. Sistem ini terdiri dari dua sub sistem, yaitu sistem pengelompokkan dokumen dan sub sistem pencarian dokumen.. 3.5.1.2.. Sub Sistem Pengelompokkan Dokumen Sub sistem pengelompokkan dokumen bertindak sebagai modul clustering dokumen. Koleksi dokumen akan di proses oleh subsistem ini. Proses yang terjadi adalah tokenisasi, eliminasi stopword,. stemming,. pembangunan. term-document. matrix. kemudian dilanjutkan dengan implementasi algoritma Fuzzy CMeans. Algoritma Fuzzy C-Means yang diterapkan pada penelitian ini memiliki beberapa modifikasi. Penghitungan jarak pada Algoritma Fuzzy C-Means (Kusumadewi, 2013) menggunakan ruang vektor yang didasarkan pada bentuk normal Euclidean untuk menghitung jarak antar vektor. Sedangkan pada pengolahan teks, dibutuhkan pendekatan menggunakan Vektor Space Model (VSM), di mana dokumen dipandang sebagai sebuah vektor yang memiliki magnitude(jarak) dan direction(arah). Pada VSM, sebuah kata. 26.
Gambar
Garis besar
Dokumen terkait
Kesedaran gaya kognitif perlu untuk membantu siswa guru, menggunakan strategi pembelajaran kendiri dengan lebih baik agar selari dengan generasi abad ke-21 yang
[r]
Hasil penelitian ini adalah citra Landsat MSS, TM dan ETM+ dengan menggunakan band tunggal pada saluran 4 pada TM dan ETM+ serta saluran 7 pada MSS yang mampu
individu yang lain, karena itu interaksi terjadi dalam suatu kehidupan sosial.. Hubungan-hubungan sosial itu pada awalnya
NAMA SISWA ASAL SEKOLAH NILAI. AKHIR
Sebagian besar membran (membran seluler epitel usus halus dan lain-lain) berukuran kecil (4-7 Å) dan hanya dapat dilalui oleh molekul dengan bobot molekul yang kecil yaitu lebih
Inkuiri bebas (Free Inquiry); pada inkuiri bebas peserta didik melakukan penelitian sendiri bagaikan seorang ilmuwan. Pada pengajaran ini peserta didik harus dapat
IV Unit Layanan Pengadaan Barang/Jasa Pemerintah Lingkup Dinas Kesehatan Kabupaten Merangin. tahun anggaran 2014 tentang paket pekerjaan Pengadaan Baju Dinas Harian , dengan