commit to user
i
CLUSTERING
DOKUMEN MENGGUNAKAN ALGORITMA
SELF -ORGANIZING MAP
(SOM)
(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS
PERTANIAN UNS)
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Sarjana Jurusan Informatika
HALAMAN JUDUL
Disusun Oleh:
VERA SURYANINGSIH
NIM. M0509074
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
commit to user
commit to user
commit to user
iv
MOTTO
“Sesali masa lalu karena ada kekecewaan dan kesalahan-kesalahan, tetapi jadikan penyesalan itu sebagai senjata untuk masa depan agar tidak terjadi
kesalahan lagi”
commit to user
v
PERSEMBAHAN
Skripsi ini penulis persembahkan kepada:
“Orang tua tercinta, Bapak Suranto dan Ibu Eni Purwaningsih”
“Kakak dan kakak ipar, Mbak Eri dan Mas Didik”
“Keponakan yang ganteng, Dik Naufal”
“Mas Sonny”
“Sahabat serta teman-teman
yang telah mensuport dan berjasa banyak”
commit to user
vi
KATA PENGANTAR
Puji syukur kepada Allah SWT atas segala limpahan rahmat dan karunia-Nya, sehingga penulis dapat menyelesaikan penulisan Tugas Akhir. Sholawat dan salam senantiasa penulis haturkan kepada Rosululloh SAW sebagai pembimbing seluruh umat manusia. Tugas Akhir ini tidak akan selesai tanpa adanya bantuan dari banyak pihak, oleh karena itu penulis menyampaikan terima kasih kepada: 1. Bapak Ir. Ari Handono Ramelan, M.Sc. (Hons), Ph.D,. selaku Dekan FMIPA
UNS.
2. Bapak Drs. Bambang Harjito, M.App.Sc., Ph.D., selaku Ketua Jurusan S1 Informatika FMIPA UNS.
3. Ibu Sari Wdya Sihwi, S.Kom., M.T.I., selaku pembimbing I yang telah dengan sabar memberikan bimbingan, petunjuk dan masukan.
4. Bapak Meiyanto Eko Sulistyo, S.T., M.Eng., selaku pembimbing II yang telah dengan sabar memberikan bimbingan, petunjuk dan masukan.
5. Ibu Esti Suryani, S.Si., M.Kom. selaku Pembimbing Akademis yang telah memberikan pengarahan selama proses penyelesaian Tugas Akhir ini.
6. Bapak Ristu Saptono, S.Si., M.T., selaku anggota dewan penguji yang telah memberikan kritik, saran, dan masukan yang membangun.
7. Bapak Prof. Dr Samanhudi, SP, M.Si selaku Pembantu Dekan 1 fakultas Pertanian UNS yang telah memberi validasi serta saran terhadap hasil Tugas Akhir ini.
8. Bapak-Ibu dosen Jurusan Informatika UNS yang telah memberikan ilmu pengetahuan dan pengalaman yang sangat berguna dalam penyusunan Tugas Akhir ini.
9. Bapak Suranto, Ibu Eni Purwaningsih, Mbak Eri, Mas Didik, Naufal, Mas Sonny, serta seluruh keluarga yang selalu mendukung, mendoakan, dan memberi semangat.
commit to user
vii
11. Teman-teman kos Pondok Biru & Sri Tanjung yang selalu memberi dukungan, dan hiburan.
12. Semua pihak yang tidak dapat penulis sebutkan satu persatu.
Semoga Allah SWT membalas jerih payah dan pengorbanan yang telah diberikan dengan balasan yang lebih baik. Penulis berharap semoga skripsi ini dapat bermanfaat bagi yang berkepentingan khususnya dan bagi pembaca umumnya.
Surakarta, 11 Mei 2015
commit to user
viii
DOCUMENT CLUSTERING USING SELF-ORGANIZING MAP (SOM)
ALGORITHM (CASE STUDY: THESIS DOCUMENTS IN THE FACULTY
OF AGRICULTURE UNS)
VERA SURYANINGSIH
Department of Informatics. Faculty of Mathematics and Natural Sciences. Sebelas Maret University
ABSTRACT
Faculty of Agriculture, Universitas Sebelas University has generated a lot of research, especially thesis documents. If the thesis document is processed, it is possible to be found a pattern that will give benefit for the faculty. Therefore, text mining of the thesis document needs to be done.
This research performed clustering to thesis documents in the faculty of Agriculture UNS 2008 to 2013 by using the Self-Organizing Map algorithm. Before the clustering process, the abstracts were processed through the text preprocessing stage and TF-IDF weighting. This research used 81 as cluster number, 1000 as iteration number and 0,1 as learning rate.
The results showed that there are several clusters which has a theme that possible can be collaborated with some or all of the department. There are also
cluster which it‟s theme possible can‟t be collaborated with another department, because only certain department who has done research on the theme of the cluster. But it could be, other departments has not done research on this theme. Department of Agribusiness has a various themes in each year. While the Department of Agrotechnology, department of ITP, and Department of Animal Husbandry just took a few same theme each year.
commit to user
ix
CLUSTERING DOKUMEN MENGGUNAKA ALGORITMA
SELF -ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI
DI FAKULTAS PERTANIAN UNS)
VERA SURYANINGSIH
Jurusan Informatika, Fakultas MIPA, Universitas Sebelas Maret
ABSTRAK
Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan dokumen skripsi tersebut.
Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma Self-Organizing Map. Sebelum dilakukan proses clustering, abstrak terlebih dahulu diolah melalui tahap text preprocessing dan pembobotan TF-IDF. Pada penelitian ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan learning rate sebesar 0,1.
Hasil penelitian menunjukkan bahwa ada beberapa cluster yang dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja.
commit to user
x
DAFTAR ISI
HALAMAN JUDUL ... i
HALAMAN PERSETUJUAN ... Error! Bookmark not defined. HALAMAN PENGESAHAN ... ii
BAB I PENDAHULUAN ... 1
1.1. Latar Belakang ... 1
1.2. Rumusan Masalah ... 3
1.3. Batasan Masalah ... 3
1.4. Tujuan Penelitian ... 3
1.5. Manfaat Penelitian ... 3
1.6. Sistematika Penulisan ... 4
BAB II LANDASAN TEORI ... 5
2.1. Dasar Teori ... 5
2.1.1. Text Mining ... 5
2.1.2. Text Preprocessing ... 6
2.1.3. Algoritma Stemming Nazief & Afriani ... 7
2.1.4. Term Frequency (TF) dan Inverse Document Frequency (IDF)... 9
2.1.5. DF Feature Selection ... 9
2.1.6. Min Max Normalization ... 10
2.1.7. Clustering ... 11
2.1.8. Self-Organizing Map (SOM) ... 11
2.2. Penelitian Terkait ... 15
commit to user
xi
BAB III METODOLOGI PENELITIAN ... 18
3.1. Studi Literatur ... 18
3.2. Pengumpulan Data ... 18
3.3. Penerapan Metode ... 19
3.3.1 Tahap Text Preprocessing ... 19
3.3.2 Tahap Pembobotan TF-IDF ... 20
3.3.3. Tahap Clustering ... 20
3.3. Tahap Analisis ... 21
3.4. Tahap Validasi ... 21
BAB IV HASIL DAN PEMBAHASAN... 22
2.3. Deskripsi Data ... 22
2.4. Tahap Text Preprocessing ... 22
2.5. Tahap Pembobotan TF-IDF ... 25
2.6. Normalisasi Data ... 29
2.7. Proses Clustering ... 30
2.8. Analisis Hasil Clustering ... 36
commit to user
xii
DAFTAR TABEL
Tabel 2.1 Penelitian Terkait... 15
Tabel 4.1 Contoh dokumen untuk perhitungan TF-IDF... 26
Tabel 4.2 Hasil dari perhitungan TF serta DF yang belum mengalami proses feature selection... 27
Tabel 4.3 Hasil dari perhitungan TF serta DF yang sudah mengalami proses feature selection... 27
Tabel 4.4 Hasil perhitungan TF, DF, IDF, dan TF-IDF... 29
Tabel 4.5 Perbandingan TF-IDF yang belum ternormalisasi dan TF-IDF yang sudah dinormalisasi dengan Min Max Normalization... 30
Tabel 4.6 Perkiraan tema pada setiap cluster C1 - C49... 37
Tabel 4.7 Distribusi Frekuensi Cluster per Prodi... 38
Tabel 4.8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agribisnis... 40
Tabel 4.9 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi... 42
Tabel 4.10 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP... 44
commit to user
xiii
DAFTAR GAMBAR
Gambar 2.1 Proses Case Folding...6
Gambar 2.2 Proses Tokenizing... 6
Gambar 2.3 Proses Filtering... 7
Gambar 2.4 Proses Stemming... 7
Gambar 2.5 Arsitektur SOM (Kristanto, 2004)... 12
Gambar 3.1 Metodologi Penelitian... 18
Gambar 3.2 Proses Text Preprocessing ... 19
Gambar 4.1 Abstrak dokumen contoh yang belum dilakukan Text Preprocessing... 22
Gambar 4.2 Hasil Case Folding terhadap Dokumen Contoh... 23
Gambar 4.3 Hasil Tokenizing terhadap Dokumen Contoh... 23
Gambar 4.4 Hasil Filtering terhadap Dokumen Contoh... 24
Gambar 4.5 Hasil Stemming terhadap Dokumen Contoh... 24
Gambar 4.6 Hasil Filtering - Stemming terhadap Dokumen Contoh... 25
Gambar 4.7 Topologi SOM... 30
Gambar 4.8 Salah Satu Dokumen Disajikan ke dalam Jaringan SOM....31
Gambar 4.9 Radius BMU... 31
Gambar 4.10 Topologi SOM untuk data contoh... 32
commit to user
xiv
DAFTAR LAMPIRAN