Untuk mengelola data log diperlukan sebuah tempat penampungan data atau basisdata (database). Data log pada dasarnya adalah data teks yang auto
generate mengikuti pola standar dari Web server, akan tetapi panjang atribut untuk
tiap kelompok string kadang tidak sama. seperti contoh berikut dengan terlebih dahulu tanda petiknya sudah dibuang:
1. 66.249.73.7 - - [04/Nov/2012:04:09:51 +0700] GET /wap/index.php
HTTP/1.1 200 4132 - SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0
Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http:www.google.com/bot.html) 2. 180.76.5.136 - - [04/Nov/2012:04:09:59 +0700] GET
/daerah_new/sulsel/disbun1/Organisasi/index.php HTTP/1.1 200 1818 - Mozilla/5.0 (compatible; Baiduspider/2.0;
+http:www.baidu.com/search/spider.html)
Pada data 1 dan 2 di atas apabila dikonversi dalam bentuk csv dan dilakukan pemisahan dengan pemisah (sparator) spasi kosong maka akan terlihat seperti pada tabel 3.10.
Tabel 11. Pemisahan string dengan spasi kosong
1 2 3 4 5 6 7 8 9 10 1 1 66.249.73.7 - - [04/Nov/2012:04:09:5 1 +0700 ] GE T /wap/index.php HTTP/1.1 200 4132 -180.76.5.136 - - [04/Nov/2012:04:09:5 9 +0700 ] GE T /daerah_new/sulsel/disbun1/ Organisasi/index.php HTTP/1.1 200 1818
-Terlihat tepat satu kelompok string ditampung dalam satu kolom, kecuali kelompok string %t dan \"%r\" ditampung lebih dari 1 kolom, hal ini akan berpengaruh terhadap perancangan fields yang akan dibuat dalam tabel log.
%h %l %u %t \"%r\" %>s %b \%"{Referer}i"%\
1 2 3 4 5 6 7 8 9 10 11
Begitupun dengan kelompok string \"%{User-agent}i%\" harus ditampung oleh lebih dari satu kolom, apalagi jumlah variabel stringnya tidak sama, hal ini berbeda dengan kelompok %t yang pasti akan ditampung oleh 2 kolom dan %r akan cukup ditampung oleh 3 kolom. seperti terlihat pada tabel 3.11 data user agent untuk data 1 harus ditampung dalam 9 kolom, sedangkan data 2 cukup dengan 4 kolom. Untuk bererapa data ada yang mencapai 15 kolom, sehingga dalam perancangan tabel untuk menampung data useragent disediakan 20 kolom:
Tabel 12. Pemisahan string useragent dengan spasi kosong 1 2 3 4 5 6 7 8 9 SAMSUNG- SGH-E250/1.0 Profile/ MIDP-2.0 Configurati on/CLDC-1.1 UP.Browser/6.2.3.3.c .1.101 (GUI ) M MP /2.0 (com patib le; Googlebo t-Mobile/2. 1; +http:www.google.com/b ot.html) Mozilla/5.0 (compat ible; Baiduspider /2.0; +http:www.baidu.co m/search/spider.html) Data log mentah disimpan dalam tabel yang belum menganut aturan database seperti primary key ataupun index, hal ini dilakukan agar semua data terkam dulu dalam bentuk tabel untuk memudahkan dalam melakukan query. b. Analisis Assosiasi
Analisis asosiasi merupakan analisis mengenai keterhubungan antara halaman web yang dikunjungi oleh pengguna. Teknik yang diigunakan adalah menggunakan teknik dalam data mining yaitu analisis keranjang belanja (market
basket analysis) dengan menggunakan salahsatu algoritme yang sudah umum
dikenal yaitu algoritme apriori.
Adapun objek yang dijadikan itemset adalah direktori yang ada dalam website atau selanjutnya dikenal dengan node.
Website Deptan memiliki alamat url http://www.deptan.go.id, yang terdiri dari beberapa subdomain dan folder di dalamnya. Adapun subdomain yang ada pada Situs web Deptan adalah sebagai berikut (berdasarkan data acces_log dan penelusuran online):
Tabel 13. Daftar Subdomian Situs Web Deptan
No Subdomain Keterangan
1 http://aplikasi.deptan.go.id/ Daftar Usaha Pertanian 2 http://bkp.deptan.go.id/ Ketahanan Pangan
3 http://bppsdmp.deptan.go.id/ Penyuluhan & Pengembangan Sumber Daya Manusia Pertanian 4 http://database.deptan.go.id/afsis/ AFSIS Indonesia
5 http://ditjenbun.deptan.go.id/ Perkebunan
6 http://ditjennak.deptan.go.id/ Peternakan & Kesehatan 7 http://epetani.deptan.go.id/ e-Petani
8 http://hortikultura.deptan.go.id/ Hortikultura
9 http://intranet.deptan.go.id/ Sistem Manajemen Pengetahuan Intranet Deptan 10 http://itbang.deptan.go.id/ Penelitian & Pengembangan
11 http://itjen.deptan.go.id/ Inspektorat 12 http://karantina.deptan.go.id/ Karantina
No Subdomain Keterangan
13 http://litbang.deptan.go.id/berita/one/852/ Kulit Buah Manggis Instan BB-Pascapanen Curi Perhatian Pengunjung PF2N Batam
14 http://lpse.deptan.go.id Layanan Pengadaan Secara Elektronik 15 http://mail.deptan.go.id Web Mail Kementan
16 http://multimedia.deptan.go.id Portal Multimedia Pertanian 17 http://perundangan.deptan.go.id Basisdata Undang-Undang 18 http://pphp.deptan.go.id/ Pengolahan & Pemasaran Hasil 19 http://ppvt.setjen.deptan.go.id/ PVT Perizinan
20 http://psp.deptan.go.id/ Prasarana & Sarana
21 http://puap.deptan.go.id/ Pengembangan Usaha Agribisnis Perdesaan (PUAP) 22 http://pusdatin.deptan.go.id/ Data Teknologi Informasi
23 http://pustaka-deptan.go.id/agritek.php Koleksi teknologi pertanian tepat guna (agriTEK) 24 http://pustaka.litbang.deptan.go.id/ Pustaka Publikasi
25 http://setjen.deptan.go.id/ Sekretariat 26 http://tanamanpangan.deptan.go.id/ Tanaman Pangan
Dari ke 26 Subdomain tersebut masingmasing memiliki file index dan folder yang independen yang bertujuan agar pemeliharaan bisa dibagibagi dan menjadi tanggung jawab masingmasing direktorat. Antara Subdomain dan folder keduanya memiliki fungsi yang sama yaitu untuk mengelompokan fungsi dan data. Tetapi ada perbedaaan penulisan alamat url ketika user melakukan browsing
internet antara alamat url dalam subdomain dan alamat url dalam folder situs
utama web Deptan, contoh sebagai berikut:
Tabel 14. Keterangan penulisan url
Penulisan url Keteragan
http://www.deptan.go.id/tanamanpangan tanamanpangan pada url ini berlaku sebagai folder
yang ada dalam url http://www.deptan.go.id http://tanamanpangan.deptan.go.id/ atau
http://www.tanamanpangan.deptan.go.id/
tanamanpangan pada url ini berlaku sebagai
subdomain url http://www.deptan.go.id
Semua alamat url baik sebagai folder ataupun sebagai Subdomain akan ditulis di dalam satu data log yang tersimpan di server web Deptan dengan alamat utamanya adalah http://www.deptan.go.id dengan. Walaupun ada perbedaan penulisan url pada web browser, tapi format penulisan data lognya disamakan, sehingga pada penelitian ini antara subdomain dan folder dianggap sebagai alamat yang sama.
root
admin index.php
data.php index.php index.php
Level 1
Level 2
pusdatin
Tabel 3.14 Kesamaan penulisan request line pada web server
Penulisan url Penulisan request line
http://www.deptan.go.id/tanamanpangan/data/index.php GET /tanamanpangan/data/index.php http://tanamanpangan.deptan.go.id/data/index.php GET /tanamanpangan/data/index.php
Penulisan data log oleh web server meliputi semua aktifitas clickstream yang dilakukan oleh pengguna, sehingga berbagai jenis data akan ada di dalamnya. Sehingga perlu pengelompokan data agar data yang kurang penting bisa diabaikan. Berdasarkan penelaahan terhadap data Log web Deptan telah diperoleh data pohon (tree) sebagai bahan pemetaan situs web deptan. Diasumsikan alamat utama web deptan (http://deptan.go.id) merupakan root dari pohon, kemudian subdomain dan folder yang ada di bawahnya merupakan node level 1, secara umum digambarkan sebagai berikut:
Gambar 6. Struktur data Pohon
Setelah dilakukan penelusuran data log dan mengakses langsung data pada Web Deptan diperoleh sebanyak 20924 node untuk selanjutnaya dianalisis dengan
teknik data mining association rule yaitu menggunakan analisis keranjang belanja
(market basket analysis). Adapun algoritme yang digunakan adalah Algoritme
Apriori untuk mengetahui itemset, frequent Itemset dan Confidence. Berikut tahapan analisis nya:
a. Penentuan Itemset
Pada penelitian ini itemset adalah kumpulan data direktori (node) yang diakses oleh pengguna.
Itemset I = {1, 2, 3, 4, ... ,20924)} adalah sebagai kumpulan node.
b. Transaksi atau Kejadian N merupakan sekumpulan n transaksi (Tn), transaksi dikodekan dengan IP Address dan tanggal, dengan batasan satu kali transaksi adalah dihitung per hari.
Berdasarkan analogi terhadap prilaku customer ketika belanja, pada sekali transaksi bisa membeli suatu jenis barang lebih dari satu item dengan kode unik untuk pencatatan di database berupa nomor faktur. Begitupun pada proses akses IP Address terhadap server per satu satuan waktu bisa mengakses node yang sama berkalikali, berikut ini contoh transaksi IP Address ketika mengakses kumpulan node (itemset).
Tabel 15 Contoh transaksi akses node
No Kode Transaksi IP Address Tanggal Node Aktivitas
1 1.187.206.56-120212 1.187.206.56 12/02/12 /kln/berita/wto/menu_wto.htm 2 1.195.130.141-120312 1.195.130.141 12/03/12 /wap/index.php 3 1.234.45.130-110412 1.234.45.130 11/04/12 /wap/index.php 4 1.234.45.130-110612 1.234.45.130 11/06/12 /wap/index.php 5 1.234.45.130-110712 1.234.45.130 11/07/12 /wap/index.php 6 1.234.45.130-120412 1.234.45.130 12/04/12 /wap/index.php 7 1.4.134.254-120312 1.4.134.254 12/03/12 /index1.php 9 1.4.134.254-120312 1.4.134.254 12/03/12 /pengumuman/cover_es.htm 10 1.4.134.254-120312 1.4.134.254 12/03/12 /event.php 11 10.10.12.15-110512 10.10.12.15 11/05/12 /index1.php 12 10.10.12.15-110512 10.10.12.15 11/05/12 /event.php 13 10.10.12.15-110512 10.10.12.15 11/05/12 /pengumuman/cover_es.htm c. Berdasarkan tabel 4.4 diperoleh 8 kali transaksi N = {1.187.206.56120212, 1.195.130.141120312, 1.234.45.130110412, 1.234.45.130110612, 1.234.45.130110712, 1.234.45.130120412, 1.4.134.254120312, 10.10.12.15110512} d. Perhitungan Support Perhitungan support diperoleh dari jumlah seluruh transaksi yang memuat suatu node dibandingkan dengan keseluruhan transaki. atau apabila dirumuskan:
Support (B) = (jumlah transaksi mengandung B / Total transaksi) %
Misalnya kemunculan node 8348(index1.php) adalah 10162, sedangkan total keseluruhan transaksi adalah 115536 maka supportnya adalah 10162/115536 = 8.796%.
e. Confidence (keyakinan)
Nilai keyakinan diperoleh dengan rumus sebagai berikut: Conf(X Y) → = Supp X ∪Y Supp X ;
= P X ∩Y P X ;
Misalkan Jumlah transaksi node (8348,19262) atau (/index1.php,/respon.php) adalah 1751, sedangkan total keseluruhan transaksi adalah 115536 maka
supportnya adalah 1751/115536= 1.516%.
Untuk melakukan pemangkasan maka ditentukan terlebih dahulu minimum