• Tidak ada hasil yang ditemukan

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY UNTUK CLUSTERING DOKUMEN (STUDI KASUS: TUGAS AKHIR MAHASISWA S1 INFORMATIKA UNS).

N/A
N/A
Protected

Academic year: 2017

Membagikan "PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY UNTUK CLUSTERING DOKUMEN (STUDI KASUS: TUGAS AKHIR MAHASISWA S1 INFORMATIKA UNS)."

Copied!
13
0
0

Teks penuh

(1)

i HALAMAN JUDUL

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(STUDI KASUS: TUGAS AKHIR MAHASISWA S1 INFORMATIKA UNS)

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu

Program Studi Informatika

Disusun oleh :

BETTY NOVARIA

M0509017

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

(2)

ii

HALAMAN PERSETUJUAN

SKRIPSI

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

Disusun oleh :

Betty Novaria

M0509017

Skripsi ini telah disetujui untuk dipertahankan di hadapan Dewan Penguji

pada tanggal 18 Juli 2016

Pembimbing 1 Pembimbing 2

Ristu Saptono, S.Si., M.T.

NIP. 19790210 200212 1 001

Rini Anggrainingsih, S.T., M.T.

(3)

iii

HALAMAN PENGESAHAN

SKRIPSI

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

Disusun oleh :

Betty Novaria

M0509017

Telah dipertahankan di hadapan Dewan Penguji

pada tanggal: 18 Juli 2016

Susunan Dewan Penguji

1. Ristu Saptono, S.Si., M.T.

NIP. 19790210 200212 1 001

( )

2. Rini Anggrainingsih, S.T., M.T.

NIP. 19780909 200812 2 002

( )

3. Abdul Aziz, S.Kom., M.Cs

NIP. 19810413 200501 1 001

( )

4. Winarno, S.Si., M.Eng

NIP. 19820520 200604 1 001

( )

Disahkan oleh

Kepala Program Studi Informatka

Drs. Bambang Harjito, M.Apps.Sc., Ph.D

(4)

iv MOTTO

B , ,

!

– Roma 12:12 –

Untuk segala sesuatu ada masanya, untuk apa pun di bawah langit ada

waktunya.

– Pengkhotbah 3:1 –

B y

(5)

v

PERSEMBAHAN

Karya ini penulis persembahkan kepada :

 Tuhan Yesus Kristus

 Keluarga tercinta, Alm. Bapak, Ibu, dan Kakak

 Sahabat tercinta, Fransisca Kusumaningrum, Dewi Asih Sesami, Catur Ariani,

dan Erlina Nur Ratriningrum

 Teman-teman Informatika UNS, Putri, Idha, Novi, Totto, Ferry, Lutvi, Andika,

(6)

vi

KATA PENGANTAR

Salam sejahtera,

Puji syukur kepada Tuhan Yang Maha Esa atas kasih karunia-Nya sehingga

penulis dapat menyelesaikan skripsi yang berjudul “Penerapan Group-Average

dan Cosine Similarity untuk Clustering Dokumen (Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)”.

Penulis menyadari akan keterbatasan yang penulis miliki dalam penyusunan

skripsi ini. Skripsi ini tidak akan selesai tanpa adanya bantuan dari berbagai pihak.

Oleh karena itu penulis menyampaikan terima kasih kepada :

1. Bapak Drs. Bambang Harjito, M.App.Sc, Ph.D. selaku Kepala Program Studi

Informatika.

2. Bapak Ristu Saptono, S.Si., M.T. selaku Dosen Pembimbing I dan Ibu Rini

Anggrainingsih, S.T., M.T. selaku Dosen Pembimbing II yang dengan sabar

membimbing, mengarahkan, dan memberi masukan kepada penulis dalam

menyelesaikan skripsi ini.

3. Bapak Didiek Sri Wiyono, S.T., M.T. dan Ibu Rini Anggrainingsih, M.T. selaku

Pembimbing Akademik yang telah memberikan pengarahan selama proses

menuntut ilmu.

4. Keluarga tercinta yang selalu memberi semangat dan dukungan yang tiada henti.

5. Teman-teman Informatika khususnya angkatan 2009 yang telah memberikan

kebersamaan selama menempuh studi.

6. Bapak dan Ibu dosen Program Studi Informatika yang telah memberikan ilmu

yang bermanfaat kepada penulis selama menempuh studi.

7. Pihak-pihak lain yang telah membantu pelaksanaan dan penyusunan skripsi ini.

Semoga skripsi ini dapat memberikan manfaat bagi semua pihak.

Surakarta, Juni 2016

(7)

vii

PENERAPAN GROUP-AVERAGE DAN COSINE SIMILARITY

UNTUK CLUSTERING DOKUMEN

(Studi Kasus: Tugas Akhir Mahasiswa S1 Informatika UNS)

BETTY NOVARIA

Program Studi Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam.

Universitas Sebelas Maret

ABSTRAK

Jumlah koleksi dokumen tugas akhir di Program Studi Informatika UNS semakin bertambah, tetapi koleksi dokumen tugas akhir tersebut belum dimanfaatkan secara maksimal. Padahal jika diolah dengan mengelompokkan dokumen tugas akhir berdasarkan kemiripan topik, koleksi dokumen tugas akhir tersebut dapat memberikan manfaat bagi dosen maupun mahasiswa.

Pada penelitian ini, dilakukan clustering terhadap dokumen tugas akhir di Program Studi Informatika UNS menggunakan metode Group-Average dan Cosine Similarity. Bagian dokumen yang diolah adalah bab 2 yang berisi tinjauan pustaka. Jumlah koleksi dokumen yang digunakan adalah 110 dokumen.

Hasil clustering menggunakan metode Group-Average menghasilkan 10

cluster dengan ketidaksesuaian dokumen sebanyak 8 dokumen. Analisis

dilakukan secara subyektif dengan melihat kemiripan topik berdasarkan judul antara dokumen yang satu dengan dokumen yang lain dalam satu cluster. Hasil analisis menunjukkan bahwa kemiripan metode yang digunakan dan studi kasus yang diangkat di dalam penelitian tugas akhir mempengaruhi hasil pembentukan cluster.

(8)

viii

APPLICATION OF GROUP-AVERAGE AND

COSINE SIMILARITY FROM DOCUMENTS CLUSTERING

(Case Study: Thesis in Department of Informatics, UNS)

BETTY NOVARIA

Department of Informatic. Mathematic and Science Faculty.

Sebelas Maret University

ABSTRACT

The number of thesis documents in the Department of Informatics is increasing, but the documents have not been fully utilized. Whereas, if the documents processed by grouping them based on similarity of topics, the documents can provide useful information for both lecturers and students.

This research focus on clustering of thesis documents in the Department of Informatics using Group-Average and Cosine Similarity methods. Part of documents that was processed was chapter 2 which contains literature review. The number of documents were used in this research are 110 documents.

The result of clustering using Group Average produced 10 clusters with document mismatches of 8 documents. Analysis was conducted subjectively by looking at the similarity of topics based on the title between one document with the other documents in a single cluster. The analysis showed that the similarity of the methods and case studies used in thesis documents affect the results of cluster formation.

(9)

ix DAFTAR ISI

HALAMAN JUDUL ... i

HALAMAN PERSETUJUAN ... ii

HALAMAN PENGESAHAN ... iii

MOTTO... iv

PERSEMBAHAN ... v

KATA PENGANTAR ... vi

ABSTRAK ... vii

ABSTRACT ... viii

DAFTAR ISI ... ix

DAFTAR TABEL ... xi

DAFTAR GAMBAR ... xii

DAFTAR LAMPIRAN ... xiii

BAB I PENDAHULUAN ... 1

1.1 Latar Belakang ... 1

1.2 Rumusan Masalah ... 2

1.3 Batasan Masalah ... 3

1.4 Tujuan Penelitian ... 3

1.5 Manfaat Penelitian ... 3

1.6 Sistematika Penulisan ... 4

BAB II LANDASAN TEORI ... 5

2.1 Dasar Teori ... 5

2.1.1 Text Mining ... 5

2.1.2 Text Preprocessing ... 5

2.1.3 TF-IDF (Term Frequency Inverse Document Frequency) ... 6

2.1.4 DF-Thresholding Feature Selection ... 7

2.1.5 Algoritma Nazief & Adriani... 7

2.1.6 Clustering ... 8

2.1.7 Group-Average Clustering ... 9

(10)

x

2.2 Penelitian Terkait ... 11

2.3 Rencana Penelitian ... 13

BAB III METODOLOGI PENELITIAN... 16

3.1 Pengumpulan Data ... 16

3.2 Text Preprocessing ... 16

3.3 Pembobotan TF-IDF dan Feature Selection ... 17

3.4 Clustering Dokumen dengan Group-Average ... 17

3.5 Analisis Hasil... 18

BAB IV HASIL DAN PEMBAHASAN ... 19

4.1 Dataset ... 19

4.2 Tahap Text Preprocessing ... 19

4.3 Pembobotan TF-IDF dan Feature Selection ... 21

4.4 Clustering dengan Group Average dan Cosine Similarity ... 23

4.5 Analisis Hasil ... 31

BAB V PENUTUP ... 48

5.1 Kesimpulan ... 48

5.2 Saran ... 48

(11)

xi

DAFTAR TABEL

Tabel 2.1 Matriks konsep penelitian ... 14

Tabel 4.1 Rincian Jumlah Data ... 19

Tabel 4.2 Contoh 5 Buah Dokumen ... 23

Tabel 4.3 Hasil Normalisasi Bobot TF-IDF pada 5 Buah Dokumen ... 24

Tabel 4.4 Perhitungan Perhitungan Σ ��,, ... 25

Tabel 4.5 Perhitungan Perhitungan √Σ ��, ... 26

Tabel 4.6 Jumlah Cluster yang Dihasilkan Threshold ... 31

Tabel 4.7 Analisis Topik pada Setiap Cluster ... 34

Tabel 4.8 Dokumen yang Tidak Sesuai ... 36

Tabel 4.9 Cluster 1 ... 36

Tabel 4.10 Cluster 2 ... 38

Tabel 4.11 Cluster 3 ... 40

Tabel 4.12 Cluster 4 ... 42

Tabel 4.13 Cluster 5 ... 43

Tabel 4.14 Cluster 6 ... 44

Tabel 4.15 Cluster 7 ... 45

Tabel 4.16 Cluster 8 ... 45

Tabel 4.17 Cluster 9 ... 46

(12)

xii

DAFTAR GAMBAR

Gambar 2.1 Struktur Dendrogram... 10

Gambar 3.1 Metodologi Penelitian ... 16

Gambar 3.2 Diagram Alir Group-Average ... 18

Gambar 4.1 Hasil Tokenizing, Filtering, dan Stemming ... 20

Gambar 4.2 Hasil Text Preprocessing dan Pembobotan TF-IDF ... 22

Gambar 4.3 Dendrogram Hasil Clustering 5 Dokumen ... 30

(13)

xiii

DAFTAR LAMPIRAN

LAMPIRAN A ... 51

LAMPIRAN B ... 57

Referensi

Dokumen terkait

Selain mengokohkan merk Pondok sebagai salah satu produsen kue Satu yang paling dikenal di Madiun, dengan perancangan ulang produk kue Satu Pondok diberbagai aspek seperti

Hal tersebut semakin diperkuat pada saat pengujian dengan hasil korelasi yang masuk kategori kuat untuk pola data enam bulanan sedangkan pola data tahunan

Perjalanan dinas Dalam Negeri adalah perjalanan dinas ke luar tempat kedudukan yang dilakukan dalam wilayah Republik Indonesia untuk kepentingan Daerah. Penganggaran belanja

Pada tahapan oksidasi dengan TMNO, selain pembentukan lapisan shell oksida Fe yang terkendali sehingga diperoleh shell oksida Fe yang lebih tipis dan homogen setelah proses

Tujuan penelitian ini adalah untuk mengetahui hubungan kepuasan pasien berdasarkan dimensi mutu pelayanan keperawatan dengan Words Of Mouth di ruang rawat inap Rumah

Dari penelitian yang telah dilakukan, dapat diketahui bahwa gaya kepemimpinan yang ada di Head Office PT Marifood adalah gaya kepemimpinan demokratis yang dapat mempengaruhi

Apabila bagian terbawah janin tidak dapat terdorong karena sesuatu sebab yang menahannya (misalnya panggul sempit atau kepala janin besar) maka volume korpus yang

Tujuan pengobatan adalah untuk mengurangi pembatasan dalam mobilitas jaringan lunak dari struktur periartikular, untuk meningkatkan arthrokinematic dan gerak