KLASTERISASI DOKUMEN ARTIKEL ILMIAH
MENGGUNAKAN ALGORITMA SINGLE PASS
CLUSTERING DENGAN DETEKSI KESAMAAN KATA
TUGAS AKHIR
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang
Rania Hasan
201110370311227
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2015
LEMBAR PERSEMBAHAN
Tugas akhir ini dapat diselesaikan berkat bantuan dari berbagai pihak yang turut serta berbagi doa dan dukungan. Untuk itu semua, saya persembahkan tugas akhir ini dan berterima kasih kepada :
1. Allah SWT yang maha memberi petunjuk dan maha pengasih.
Alhamdulillah Allah telah memberikan saya keteguhan hati dan kesabaran selama mengerjakan Tugas Akhir ini.
2. Kedua orang tua saya, Bapak Hasan Malik dan Ibu Darmiati, yang mana telah memberikan semangat, motivasi dan dukungan, baik itu dukungan berupa do’a maupun materi serta sudah sabar mendidik dan merawat saya mulai dari kecil hingga saya mampu menyelesaikan Tugas Akhir ini.
3. Untuk mbak ku tersayang windy, yang telah memberikan dukungan baik berupa do’a dan materi, motivasi dan semangatnya dalam pengerjaan Tugas Akhir ini.
4. Untuk kekasih hati Novan Hermawan yang senantiasa memberikan
dukungan baik berupa do’a maupun materi, motivasi dan semangatnya serta kesabarannya dalam proses pengerjaan Tugas Akhir ini.
5. Ibu Gita Indah Marthasari selaku pembimbing 1 yang membantu dalam
memberikan arahan dalam mengerjakan Tugas Akhir ini.
6. Bapak Yufis Azhar selaku pembimbing 2 yang membantu dan memberi
arahan dalam mengerjakan Tugas Akhir ini.
7. Pihak Dosen Pengajar yang telah memberikan ilmunya beserta Staff TU Jurusan Teknik Informatika UMM.
8. Teman-teman yang selalu mendukung dan memberikan semangat, Indah,
Dewa, Nelly dan teman-teman kost Tlogomas Gang 15c No 12a, Malang yang telah senantiasa menjadi penyemangat.
9. Teman-teman EEC.
10. Semua pihak yang tidak dapat saya sebutkan satu persatu yang telah berjasa dalam pengerjaan tugas akhir ini.
iii
KATA PENGANTAR
Bismillahirrahmanirrahim
Dengan memanjatkan puji syukur kehadirat Allah SWT. Atas segala rahmat dan hidayah-NYA sehingga penulis dapat menyelesaikan Tugas Akhir yang berjudul :
“KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN
ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA”, sebagai salah satu syarat kelulusan pada Jurusan Teknik
Informatika, Fakultas Teknik, Universitas Muhammadiyah Malang.
Dalam penulisan tugas akhir ini pokok-pokok bahasan yang meliputi perancangan dan implementasi algoritma Single Pass Clustering untuk pembuatan aplikasi klasterisasi dokumen artikel ilmiah.
Penulis menyadari sepenuhnya bahwa Tugas Akhir ini masih jauh dari kesempurnaan karena terbatasnya pengetahuan dan keterampilan yang penulis miliki. Oleh karena itu kritik dan saran yang membangun dari berbagai pihak sangat diharapkan untuk perbaikan Tugas Akhir ini. Selanjutnya, penulis berharap semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak. Amin.
Malang, 6 Agustus 2015
iv
DAFTAR ISI
ABSTRAK ... i
ABSTRACT ... ii
KATA PENGANTAR ... iii
DAFTAR ISI ... iv
DAFTAR GAMBAR ... vi
DAFTAR TABEL ... viii
BAB I PENDAHULUAN ... 1
1.1 Latar Belakang Masalah ... 1
1.2 Rumusan Masalah ... 2
1.3 Tujuan ... 2
1.4 Batasan Masalah ... 2
1.5 Metodologi Penelitian ... 2
1.6 Sistematika Penulisan ... 3
BAB II LANDASAN TEORI ... 5
2.1 Data Mining ... 5 2.2 Text Mining ... 6 2.2.1 Preprocessing ... 7 a. Case Folding ... 8 b. Tokenizing ... 8 c. Filtering ... 8 d. Stemming ... 9 2.2.2 Kesamaan Kata... 10
2.2.3 Pembobotan term dengan TF-IDF ... 11
2.2.4 Cosine Similarity ... 11
2.3 Konsep Single Pass Clustering ... 12
2.4 Purity ... 13
2.5 Bahasa Pemrograman ... 14
BAB III ANALISA DAN PERANCANGAN SISTEM ... 17
3.1 Analisa Masalah dan Penyelesaian ... 17
v
3.1.2 Gambaran Umum Sistem ... 17
3.1.3 Use Case Diagram ... 19
3.1.4 Proses Klasterisasi ... 19
3.1.5 Activity Diagram ... 22
3.2 Perancangan Sistem ... 25
3.2.1 Sequence Diagram... 23
3.2.2 Entity Relation Diagram Sistem ... 27
3.3 Desain Interface ... 28
3.3.1 Desain Menu Utama ... 28
3.3.2 Desain Menu Klasterisasi ... 29
BAB IV IMPLEMENTASI DAN PENGUJIAN ... 30
4.1 Implementasi Software ... 30
4.1.1 Implementasi Preprocessing ... 30
4.1.2 Implementasi Interface Sistem ... 35
4.2 Pengujian Sistem dan Kebutuhan ... 40
4.2.1 Pengujian Functional Requirements ... 40
4.2.2 Pengujian Non-Functional Requirements ... 41
4.3.1 Pengujian Klasterisasi ... 41
BAB V PENUTUP ... 61
5.1 Kesimpulan ... 61
5.2 Saran ... 61
vi
DAFTAR GAMBAR
Gambar 2.1. Proses dalam KDD ... 5
Gambar 2.2. Tahapan Proses Text Mining ... 7
Gambar 2.3. Case Folding ... 8
Gambar 2.4. Tokenizing ... 8
Gambar 2.5. Filtering ... 9
Gambar 2.6. Stemming ... 10
Gambar 3.1 Gambaran Umum Sistem ... 18
Gambar 3.2 Use Case Diagram Admin ... 19
Gambar 3.3 Perhitungan bobot term dan TF.IDF ... 20
Gambar 3.4 Activity Diagram Kelola Dokumen Artikel Ilmiah Input ... 23
Gambar 3.5 Activity Diagram Kelola Dokumen Artikel Ilmiah update... 23
Gambar 3.6 Activity Diagram Kelola Dokumen Artikel Ilmiah Delete ... 24
Gambar 3.7 Activity Diagram Klasterisasi Dokumen Artikel Ilmiah ... 24
Gambar 3.8 Sequence Diagram Pengguna Tambah Data ... 25
Gambar 3.9 Sequence Diagram Pengguna Ubah Data ... 26
Gambar 3.10 Sequence Diagram Pengguna Hapus Data ... 26
Gambar 3.11 Sequence Diagram Klasterisasi Dokumen Artikel Ilmiah... 27
Gambar 3.12 E-R Diagram ... 27
Gambar 3.13 Desain Menu Utama ... 28
Gamabar 3.14 Desain Menu Klasterisasi ... 29
Gambar 4.1 Inisialisasi pengecekan sinonim ... 30
Gambar 4.2 Inisialisasi Tokenizing ... 31
Gambar 4.3 Inisialisasi filtering ... 31
Gambar 4.4 Inisialisasi stemming ... 31
Gambar 4.5 Inisialisasi perhitungan TF ... 32
Gambar 4.6 Inisialisasi perhitungan DF dan IDF ... 32
Gambar 4.7 Inisialisasi perhitungan TF.IDF ... 32
Gambar 4.8 Inisialisasi cosine similarity ... 33
Gambar 4.9 Inisialisasi nilai threshold ... 33
vii
Gambar 4.11 Inisialisasi nilai centroid lanjutan ... 34
Gambar 4.12 Inisialisasi persamaan hasil dengan threshold ... 34
Gambar 4.13 Inisialisasi hasil single pass clustering ... 35
Gambar 4.12 Menu Utama atau Home ... 35
Gambar 4.13 Menu File ... 36
Gambar 4.14 Menu kelola data jurnal ... 36
Gambar 4.15 Menu pengecekkan sinonim ... 37
Gambar 4.16 Menu klasterisasi ... 37
Gambar 4.17 hasil tokenizing ... 38
Gambar 4.18 hasil filtering ... 38
Gambar 4.19 hasil stemming ... 39
Gambar 4.20 hasil pembobotan TF ... 39
Gambar 4.21 hasil klasterisasi ... 40
Gambar 4.22 hasil percobaan I... 43
Gambar 4.23 hasil percobaan II ... 44
Gambar 4.24 hasil percobaan III ... 45
Gambar 4.25 hasil percobaan IV ... 46
Gambar 4.26 hasil percobaan V ... 47
Gambar 4.27 hasil percobaan VI ... 49
Gambar 4.28 hasil percobaan VII ... 50
Gambar 4.29 hasil percobaan VIII ... 52
Gambar 4.30 hasil percobaan IX ... 54
Gambar 4.31 hasil percobaan X ... 56
Gambar 4.32 Grafik pengaruh threshold terhadap nilai purity ... 59
viii
DAFTAR TABEL
Tabel 4.1 Pengujian Functional Requirements ... 40
Tabel 4.2 Pengujian Non-Functional Requirements ... 40
Tabel 4.3 Klasifikasi secara manual... 42
62
DAFTAR PUSTAKA
[1] Carpineto, C., dan Romano, G., 2012. “A survey of automatic query expansion in University Research Colloquium 2015 ISSN 2407-9189 48 information retrieval.” ACM Computing Surveys (CSUR), 44(1), 1.
[2] Larose, Daniel T. 2005. Discovering Knowledge in Data: An
Introduction to Data Mining. John Willey & Sons, Inc.
[3] Gordon, Michael D., 1991. User-Based Document Clustering by
Redescribing Subject Descriptions with a Genetic Algorithm,. Journal of American Society for Information Science, 311-322. [4] Zainal Arifin, Agus dan Novan Setiono, Ari. 2002. Klasifikasi
Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering. Jurusan Teknik Informatika, Institut Teknologi Sepuluh Nopember.
[5] Ridho Barakkah, Ali. “CLUSTERING”. Jurusan Teknologi
Informasi Politeknik Elektronika Negeri Surabaya. Workshop Data Mining, 18-20 Juli 2006.
[6] Sulistyo-Basuki. Teknik dan Jasa Dokumentasi.(Jakarta: Gramedia
Pustaka Utama, 1992).
[7] Hasugian, Jonner. (2003). Penggunaan Bahasa Alamiah dan Kosa
Kata Terkontrol Dalam Sistem Temu Kembali Informasi Berbasis Teks. Dalam USU digital library.
[8] Feldman, R. & Sanger, J. (2007). The Text Mining Handbook. New York: Cambridge University Press.
[9] Triawati, Chandra 2009, Metode Pembobotan Statistical Concept Based untuk Klastering dan Kategorisasi Dokumen Berbahasa Indonesia, Institut Teknologi Telkom Bandung.
[10] Agusta, Ledy 2009, Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia, Konferensi Nasional Sistem dan Informatika 2009, Fakultas Teknologi Informasi Universitas Kristen Satya Wacana.
63
[11] Kadir, Abdul. 2004. Dasar Pemrograman Java 2. Andi.
Yogyakarta.
[12] Tan et al. 2005. “Introduction to Data Mining”. ACM. Inc.
[13] Auvil, L. & Searsmith, D.,2003,Using Text Mining for Spam Filtering, hlm.4. Automated Learning Group, National Center for Supercomputing Applications, University of lllinois.
[14] Satzinger, John W., Robert B. Jackson, Stephen D Burd. (2009). Systems Analysis and Design in a Changing World, Fifth Edition. Course Technology, Cengage Learning.
[15] Februariyanti, Herny., Zuliarso, Eri. 2013. Klastering Dokumen Berita dari Web menggunakan Algoritma Single Pass Clustering. Fakultas Teknologi Informasi, Universitas Stikubank.