vi
KATA PENGANTAR
Alhamdulillah, puji dan syukur penulis panjatkan kehadirat Allah SWT
karena dengan rahmat-Nya tugas akhir yang berjudul “
Kombinasi Algoritma Agglomeratice Clustering dan K-Means Untuk Segmentasi Pengunjung Website”dapat diselesaikan. Penyusunan tugas akhir ini merupakan salah satu syarat untuk
menyelesaikan program studi pendidikan sarjana dan memperoleh gelar Sarjana
Komputasi (S.Kom.) di Fakultas Informatika Telkom University. Penulis
menyadari bahwa dalam penulisan tugas akhir ini masih terdapat kekurangan yang
disebabkan oleh keterbatasan yang dimiliki. Oleh karena itu, kritik dan saran yang
bersifat membangun sangat diharapkan untuk memperbaiki tugas akhir ini. Kritik
maupun
saran
dapat
dikirimkan
ke
penulis
yaitu
[email protected]
Akhir kata, dengan segenap kerendahan hati memohon maaf apabila
terjadi kesalahan baik disengaja atau yang tidak disengaja dan semoga tugas akhir
ini dapat dikembangkan lebih lanjut. Penulis juga berharap tugas akhir ini
bermanfaat bagi penulis sendiri dan bagi pembaca, khususnya bagi dunia
pendidikan pada umumnya.
vii
UCAPAN TERIMAKASIH
Pada kesempatan ini penulis ingin menyampaikan terima kasih yang
sebesar-besarnya kepada semua pihak yang telah memberikan bantuan, dukungan,
dan doa dalam menyelesaikan tugas akhir ini, diantaranya :
1. Allah SWT atas rahmat dan karunia-Nya sehingga penulis dapat
menyelesaikan tugas akhir ini.
2. Rasulullah SAW atas perjuangan beliau untuk umatnya.
3. Kedua Orangtuaku, Serda Tumiran dan Dra. Yuni Untorowati yang selalu
memberikan yang selalu memberi motivasi, nasehat, dorongan, semangat, dan
doa. Adek saya, Diah Anggarini Kartika Putri, serta saya kekasih Risda
Monitawati yang selalu memberi semangat, sehingga tugas akhir ini dapat
diselesaikan,.
4. Ibu Indwiarti M.Si, selaku pembimbing I yang selalu memberikan waktu dan
masukan-masukan kepada penulis dalam menyelesaikan tugas akhir ini.
5. Bapak Yuliant Sibaroni, S.Si., M.T, selaku pembimbing II yang selalu
memberikan
waktu
dan
masukan-masukan
kepada
penulis
dalam
menyelesaikan tugas akhir ini.
6. Ibu Fhira Nhita dan Bapak Mahmud Imrona, selaku penguji yang telah
memberikan koreksi serta masukkan yang membangun penulis agar lebih baik
lagi.
7. Ibu Sri Suryani P, S.Si, M.Si, selaku dosen wali yang telah membimbing dan
memberikan masukkan kepada penulis selama masa kuliah.
8. Seluruh dosen Prodi Ilmu Komputasi Telkom University yang tidak dapat
disebutkan satu persatu. Terima kasih atas ilmu yang sangat luar biasa yang
telah diberikan kepada penulis.
9. Rekan rekan mahasiswa Ilmu Komputasi 2011 yang tergabung dalam pejuang
3,5 tahun,terima kasih atas doa dan semangat yang diberikan.
10. Keluarga besar IK-35 khususnya IK-35-01 yang tidak dapat disebutkan satu
persatu. Terimakasih atas kebersamaan yang telah kita jalin selama ini dan
semoga tidak berhenti sampai disini.
viii
11. Keluarga Besar PaMTKla (Paseduluran Mahasiswa Trah Klaten) yang
tidak dapat disebutkan satu persatu. Terima kasih atas kebersamaan selama
ini.
12. Keluarga Besar UKM Djawa Tj@p Parabola yang tidak dapat disebutkan
satu persatu. Terima kasih atas kebersamaan selama ini.
13. Keluarga Besar Asisten Laboratorium Dasar Komputer yang tidak dapat
disebutkan satu persatu. Terima kasih atas kebersamaan dan menjadi rekan
kerja yang baik.
14. Keluarga Besar Asisten Laboratorium Sistem Terdistribusi yang tidak
dapat disebutkan satu persatu. Terima kasih atas kebersamaan dan menjadi
rekan kerja yang baik.
15. Pihak-pihak yang belum disebutkan namanya. Semoga Allah membalas
kebaikan kalian semua. Aamiin.
ix
DAFTAR ISI
LEMBAR PENGESAHAN ... ii
LEMBAR PERNYATAAN KEASLIAN ... iii
ABSTRAK ... iv
ABSTRACT ... v
KATA PENGANTAR ... vi
UCAPAN TERIMAKASIH ... vii
DAFT A R IS I ... ix
DAFTAR TABEL ... xi
DAFT A R GAMB AR ... xii
DAFTAR LAMPIRAN ... xiii
DAFTAR ISTILAH ... xiv
BAB 1 PENDAHULUAN ... 1
1.1 Latar Belakang. ... 1
1.2 Rumusan Masalah. ... 2
1.3 Batasan Masalah. ... 2
1.4 Tujuan dan Manfaat. ... 3
1.4.1 Tujuan Penelitian ... 3
1.4.2 Manfaat Penelitian ... 3
1.5 Hipotesa. ... 3
1.6 Metodologi Penelitian. ... 3
1.7 Sistematika Penulisan ... 5
BAB 2 LANDASAN TEORI ... 6
2.1 Data Mining ... 6
2.2 Web Mining ... 6
2.2.1 Web content mining ... 6
2.2.2 Web structure mining ... 7
2.2.3 Web usage mining ... 7
2.3 Web Usage Mining ... 7
2.4 Proses Web Usage Mining ... 8
2.4.1 Tahap Preprocessing... 8
2.4.2 Pattern Discovery ... 9
2.4.3 Pattern Analysis ... 10
2.5 Clustering. ... 10
2.5.1 Macam-macam metode clustering ... 10
x
2.5.3. K-Means Clustering. ... 15
2.5.4. Implementasi Heirarchical Agglomerative Clustering dan K-Means. ... 18
2.6. Analisis Faktor ... 19
2.7. Data Web Server Log ... 19
BAB 3 PERANCANGAN SISTEM ... 21
3.1 Deskripsi Sistem Secara Umum. ... 21
3.2 Pencarian Data Historis Yang Optimal. ... 21
3.3. Desain Sistem ... 22
3.4. Deskripsi Tahapan Proses. ... 23
3.4.1. Web Logs Data Collection. ... 23
3.4.2. Pre-Processing. ... 24
3.4.3. Factor Analysis ... 27
3.4.4. Hierarchical Clustering ... 27
3.4.5. Non Hierarchical Clustering. ... 28
3.4.6. Analisis dan Hasil ... 28
BAB 4 PENGUJIAN DAN ANALISIS... 29
4.1.1. Pencarian Data Historis Yang Optimal ... 29
4.1.2. Hasil Preprocessing Data ... 30
4.1.3. Hasil Analisis Faktor ... 40
4.1.4. Hasil Uji Coba Agglomerative Clustering ... 41
4.1.5. Hasil Uji Coba K-Means Clustering ... 43
4.1.6. Hasil Dan Analisis ... 44
BAB 5 KESIMPULAN DAN SARAN ... 46
5.1. Kesimpulan ... 46
5.2. Saran... ... 47
xi
DAFTAR TABEL
Tabel 2.1 Contoh Matriks Jarak Agglomerative Methods ... 12
Tabel 2.2 Contoh Matriks Jarak cluster AB Single linkage ... 13
Tabel 2.3 Contoh Data HAC. ... 13
Tabel 2.4 Hasil Matriks Jarak ... 13
Tabel 3.1 Contoh Access log web server ... 24
Tabel 3.2 Access Log Web Server Setelah Preprocessing. ... 25
Tabel 3.3 Matriks Vektor. ... 26
Tabel 3.4 Agglomeration Schedule. ... 27
Tabel 4.1 Parsing Data 24 Agustus 2014 ... 31
Tabel 4.2 Parsing Data 1 September 2014 ... 32
Tabel 4.3 Parsing Data 8 September 2014 ... 32
Tabel 4.4 Parsing Data 15 September 2014 ... 33
Tabel 4.5 Cleaning Data 24 Agustus 2014. ... 34
Tabel 4.6 Cleaning Data 1 September 2014 ... 35
Tabel 4.7 Cleaning Data 8 September 2014 ... 35
Tabel 4.8 Cleaning Data 15 September 2014 ... 36
Tabel 4.9 Page User identification 24 Agustus 2014 ... 36
Tabel 4.10 Page User identification 1 September 2014 ... 37
Tabel 4.11 Page User identification 8 September 2014 ... 37
Tabel 4.12 Page User identification 15 September 2014 ... 37
Tabel 4.13 Page Access Identification Data 24 Agustus 2014 ... 38
Tabel 4.14 Page Access Identification Data 4 September 2014 ... 38
Tabel 4.15 Page Access Identification Data 8 September 2014 ... 39
Tabel 4.16 Page Access Identification Data 15 September 2014 ... 40
Tabel 4.17 Faktor Analisis tanggal 24 Agustus 2014 ... 40
Tabel 4.18 Hasil Agglomerative Clustering ... 42
Tabel 4.19 Agglomeration Schedule ... 42
xii
DAFTAR GAMB AR
Gambar 2.1 Web Mining Taxonomy...6
Gambar 2.2 Rumus Manhattan Distance...14
Gambar 2.3 Alur Penelitian...18
Gambar 3.1 Desain Sistem...22
Gambar 3.2 Bentuk Matriks Vektor...26
xiii
DAFTAR LAMPIRAN
Lampiran 1 Tabel Final Cluster 24 Agustus 2014 ... 50
Lampiran 2 Tabel Final Cluster 01 September 2014 ... 51
Lampiran 3 Tabel Final Cluster 08 September 2014 ... 52
Lampiran 4 Tabel Final Cluster 15 September 2014 ... 53
Lampiran 5 Tabel Faktor yang sering dikunjungi pada setiap clusternya ... 54
Lampiran 6 Tabel Variabel-variabel web i-gracias ... 55
Lampiran 7 Tabel Hasil Akhir Percobaan ... 56
Lampiran 8 Tabel Hasil Akhir Percobaan Harian Dalam Menu ... 59
xiv
DAFTAR ISTILAH
User : Ip Address Pengunjung Website. I-gracias : Website akademik Telkom University.
Clustering : Pengelompokan Data Berdasarkan Ukuran Kedekatan atau (kemiripan). HAC : Hierarchical Agglomerative Clustering.