BAB 1 PENDAHULUAN
1.1.Latar Belakang
Dewasa ini segala macam informasi dapat dicari di internet. Salah satunya adalah informasi tentang kesehatan. Informasi kesehatan yang berhubungan dengan anak tidak dapat disamakan dengan informasi kesehatan yang berhubungan dengan orang dewasa, demikian juga sebaliknya. Salah satu metode pengumpulan informasi dari internet dapat menggunakan web crawler. Web crawler adalah sebuah perangkat lunak yang digunakan untuk menjelajah serta mengumpulkan halaman-halaman web yang selanjutnya diindeks oleh mesin pencari (Gatial et al, 2005). Permasalahannya, artikel
web yang dikumpulkan dengan web crawler masih tercampur satu sama lainnya dan belum terkategorikan. Untuk mengelompokkan artikel web tersebut sesuai dengan
kategori-kategori yang ada maka dibutuhkan clustering artikel hasil dari web crawler. Clustering atau pengelompokan artikel dengan berbagai bahasa telah banyak
dilakukan dengan beberapa metode. Lee & Yang (2003) menggunakan algoritma SOM (Self Organizing Maps) untuk clustering terhadap artikel yang berbahasa Cina dan berbahasa Inggris. Dalam penelitian ini mereka melakukan clustering dengan 2 cara berbeda. Pertama mereka melakukan clustering terhadap sebuah korpus paralel dan yang kedua mereka melakukan clustering terhadap sebuah korpus hybrid. Korpus merupakan kumpulan dari beberapa teks yang dipakai sebagai sumber penelitian.
Yusuf & Priambadha (2013) menggunakan algoritma K-means untuk clustering artikel yang kemudian diklasifikasikan menggunakan Multi-Class Support Vector Machine (Multi-Class SVM). Hasil dari penelitian ini menunjukan bahwa metode tersebut mampu menghasilkan akurasi sebesar 88,1% dan recall sebesar 94,4% dengan parameter jumlah kelompok sebesar 5. Pengelompokan artikel dengan K-Means Clustering sebelum melakukan klasifikasi mampu meningkatkan akurasi sebesar 0,5 %
menggunakan algoritma K-means untuk mengelompokkan artikel sebelum klasifikasi. Husni et al (2015) menggunakan algortima K-Means untuk clustering berita web berbahasa Indonesia. Artikel berita berhasil dikelompokan secara otomatis sesuai dengan derajat kesamaan berita sehingga menjadi kelompok artikel berita yang terstruktur dengan diperoleh nilai rata-rata F-Measure 0.6129. Jumlah cluster dengan nilai puritas terbaik 0.75475 adalah 2 cluster.
Suryaningsih (2015) menggunakan algoritma SOM (Self Organizing Maps) untuk clustering abstrak pada sebuah penelitian. Pada penelitian ini jumlah cluster ditentukan
sebanyak 81 cluster. Dari 81 cluster, 9 cluster tidak memiliki tema dan 4 cluster tidak terisi oleh artikel. Tema yang ada pada setiap cluster dianalisis secara manual setelah cluster tersebut diisi oleh artikel.
Penelitian yang telah dilakukan sebelumnya memiliki beberapa kelemahan yakni input yang diambil masih hanya berupa abstrak yang merupakan gambaran kecil dari
suatu artikel jurnal. Hasil dari clustering yang dilakukan dengan algoritma SOM pada penelitian sebelumnya ditemukan cluster yang tidak dapat ditentukan temanya. Pada penelitian-penelitian sebelumnya, term yang dijadikan parameter pada proses clustering
masih hanya berupa kata tunggal sementara pada bahasa Indonesia banyak terdapat kata mejemuk yang apabila dipisah maka akan memiliki arti yang berbeda dari kata tunggal pembangunnya.
Untuk mengatasi kelemahan-kelemahan yang terdapat pada penelitian sebelumnya, penulis mencoba untuk melakukan penelitian mengenai clustering artikel web kesehatan dengan menggunakan metode Self Organizing Maps. Dari latar belakang diatas maka penulis mengajukan proposal penelitian dengan judul “CLUSTERING ARTIKEL WEB KESEHATAN DENGAN MENGGUNAKAN ALGORITMA SELF ORGANIZING MAPS”.
1.2.Rumusan Masalah
rumusan masalah pada penelitian ini adalah bagaimana penerapan algoritma Self Organizing Maps untuk clustering artikel web kesehatan sehingga dapat
terkelompokkan sesuai dengan kategori yang ada.
1.3.Tujuan Penelitian
Tujuan penelitian ini adalah untuk clustering artikel hasil dari web crawler menjadi beberapa kategori tertentu berdasarkan isi artikel dengan algoritma Self Organizing Maps.
1.4.Batasan Masalah
Untuk menghindari perluasan dan penyimpangan yang tidak diperlukan, maka penulis membuat batasan sebagai berikut:
1. Hanya menangani artikel kesehatan teks berbahasa Indonesia 2. Tidak menangani kesalahan penulisan kata
3. Kata majemuk yang dapat dideteksi maksimal terdiri dari tiga kata
1.5.Manfaat penelitian
Manfaat yang diperoleh dari penelitian ini adalah otomatisasi pengkategorian artikel kesehatan hasil dari web crawler.
1.6.Metodologi Penelitian
Tahapan-tahapan yang dilakukan selama penelitian adalah sebagai berikut: 1. Studi Literatur
Studi literatur dilakukan untuk pengumpulan bahan referensi mengenai text pre-processing, TF-IDF (Term Frequency-Inverse Document Frequency), automatic
keyphrase extraction, algoritma stemming Nazief & Andriani, jaringan saraf tiruan,
dan SOM (Self Organizing Maps) dari beberapa jurnal, artikel, buku, dan beberapa sumber referensi lainnya.
2. Analisis Permasalahan
SOM (Self Organizing Maps), serta masalah yang akan diselesaikan yaitu pengelompokan artikel kesehatan hasil web crawler sesuai usia yang ditujukan dan topiknya.
3. Perancangan
Pada tahap ini dilakukan perancangan arsitektur, pengumpulan data, serta perancangan antarmuka. Proses perancangan dilakukan berdasarkan hasil dari analisis studi literatur yang telah diperoleh.
4. Implementasi
Pada tahap ini dilakukan implementasi ke dalam kode sesuai dengan analisis dan perancangan yang telah dilakukan pada tahap sebelumnya.
5. Pengujian
Pada tahap ini dilakukan pengujian terhadap hasil yang didapatkan melalui implementasi algoritma SOM (Self Organizing Maps) dalam melakukan clustering artikel web untuk memastikan bahwa hasil clustering yang dilakukan sudah sesuai. 6. Dokumentasi dan Penyusunan Laporan
Pada tahap ini dilakukan dokumentasi dan penyusunan laporan hasil evaluasi dan
analisis serta implementasi algoritma SOM (Self Organizing Maps) dalam melakukan clustering artikel web.
1.7.Sistematika Penulisan
Sistematika penulisan dari skripsi ini terdiri atas lima bagian utama sebagai berikut:
Bab 1: Pendahuluan
Bab ini berisi latar belakang dari penelitian yang dilaksanakan, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian, serta sistematika penulisan.
Bab 2: Landasan Teori
Bab ini berisi teori-teori yang diperlukan untuk memahami permasalahan yang dibahas pada penelitian ini. Teori-teori yang berhubungan dengan text mining, text pre-processing, TF-IDF (Term Frequency-Inverse Document Frequency), automatic
keyphrase extraction, algoritma stemming Nazief & Andriani, jaringan saraf tiruan, dan
Bab 3: Analisis dan Perancangan
Bab ini akan menjabarkan arsitektur umum, langkah text pre-processing yang dilakukan, proses term weighting dengan metode TFIDF, proses keyphrase extraction, serta analisis dan penerapan algoritma SOM (Self Organizing Maps) dalam melakukan clustering artikel web hasil dari web crawler.
Bab 4: Implementasi dan Pengujian
Bab ini berisi pembahasan tentang implementasi dari perancangan yang telah dijabarkan pada bab 3. Selain itu, hasil yang didapatkan selama proses yang terjadi pada penelitian juga dijabarkan pada bab ini.
Bab 5: Kesimpulan dan Saran