• Tidak ada hasil yang ditemukan

Penemuan dan Analsisis Pola a Analisis Database

Untuk mengelola data log diperlukan sebuah tempat penampungan data atau basisdata (database). Data log pada dasarnya adalah data teks yang auto generate mengikuti pola standar dari Web server, akan tetapi panjang atribut untuk tiap kelompok string kadang tidak sama. seperti contoh berikut dengan terlebih dahulu tanda petiknya sudah dibuang:

1. 66.249.73.7 - - [04/Nov/2012:04:09:51 +0700] GET /wap/index.php

HTTP/1.1 200 4132 - SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http:www.google.com/bot.html) 2. 180.76.5.136 - - [04/Nov/2012:04:09:59 +0700] GET

/daerah_new/sulsel/disbun1/Organisasi/index.php HTTP/1.1 200 1818 - Mozilla/5.0 (compatible; Baiduspider/2.0;

+http:www.baidu.com/search/spider.html)

Pada data 1 dan 2 di atas apabila dikonversi dalam bentuk csv dan dilakukan pemisahan dengan pemisah (sparator) spasi kosong maka akan terlihat seperti pada tabel 3.10.

Tabel 11. Pemisahan string dengan spasi kosong

1 2 3 4 5 6 7 8 9 10 1 1 66.249.73.7 - - [04/Nov/2012:04:09:5 1 +0700 ] GE T /wap/index.php HTTP/1.1 200 4132 - 180.76.5.136 - - [04/Nov/2012:04:09:5 9 +0700 ] GE T /daerah_new/sulsel/disbun1/ Organisasi/index.php HTTP/1.1 200 1818 -

Terlihat tepat satu kelompok string ditampung dalam satu kolom, kecuali kelompok string %t dan \"%r\" ditampung lebih dari 1 kolom, hal ini akan  berpengaruh terhadap perancangan fields yang akan dibuat dalam tabel log.

%h %l %u %t \"%r\" %>s %b \%"{Referer}i"%\

1 2 3 4 5 6 7 8 9 10 11

Begitupun dengan kelompok string \"%{User-agent}i%\" harus ditampung  oleh lebih dari satu kolom, apalagi jumlah variabel string­nya tidak sama, hal ini  berbeda dengan kelompok  %t  yang pasti akan ditampung oleh 2 kolom dan  %r

akan cukup ditampung oleh 3 kolom. seperti terlihat pada tabel 3.11 data  user- agent untuk   data   1   harus   ditampung   dalam   9   kolom,   sedangkan   data   2   cukup  dengan  4   kolom.   Untuk  bererapa   data   ada   yang  mencapai   15  kolom,   sehingga  dalam perancangan tabel untuk menampung data user-agent disediakan 20 kolom:

Tabel 12. Pemisahan string user-agent dengan spasi kosong 1 2 3 4 5 6 7 8 9 SAMSUNG- SGH- E250/1.0 Profile/ MIDP- 2.0 Configurati on/CLDC- 1.1 UP.Browser/6.2.3.3.c .1.101 (GUI ) M MP /2.0 (com patib le; Googlebo t- Mobile/2. 1; +http:www.google.com/b ot.html) Mozilla/5.0 (compat ible; Baiduspider /2.0; +http:www.baidu.co m/search/spider.html)

Data log  mentah disimpan dalam tabel  yang belum  menganut aturan  database

seperti primary key ataupun index, hal ini dilakukan agar semua data terkam dulu  dalam bentuk tabel untuk memudahkan dalam melakukan query.

b. Analisis Assosiasi

Analisis asosiasi merupakan analisis mengenai keterhubungan antara halaman web yang dikunjungi oleh pengguna. Teknik yang diigunakan adalah menggunakan teknik dalam data mining yaitu analisis keranjang belanja (market basket analysis) dengan menggunakan salahsatu algoritme yang sudah umum dikenal yaitu algoritme apriori.

Adapun objek yang dijadikan itemset adalah direktori yang ada dalam website

atau selanjutnya dikenal dengan node.

Website Deptan memiliki alamat url http://www.deptan.go.id, yang terdiri dari beberapa subdomain dan folder di dalamnya. Adapun subdomain yang ada pada Situs web Deptan adalah sebagai berikut (berdasarkan data acces_log dan penelusuran online):

Tabel 13. Daftar Subdomian Situs Web Deptan

No Subdomain Keterangan

1 http://aplikasi.deptan.go.id/ Daftar Usaha Pertanian 2 http://bkp.deptan.go.id/ Ketahanan Pangan

3 http://bppsdmp.deptan.go.id/ Penyuluhan & Pengembangan Sumber Daya Manusia Pertanian

4 http://database.deptan.go.id/afsis/ AFSIS Indonesia 5 http://ditjenbun.deptan.go.id/ Perkebunan

6 http://ditjennak.deptan.go.id/ Peternakan & Kesehatan 7 http://epetani.deptan.go.id/ e-Petani

8 http://hortikultura.deptan.go.id/ Hortikultura

9 http://intranet.deptan.go.id/ Sistem Manajemen Pengetahuan Intranet Deptan 10 http://itbang.deptan.go.id/ Penelitian & Pengembangan

11 http://itjen.deptan.go.id/ Inspektorat 12 http://karantina.deptan.go.id/ Karantina

No Subdomain Keterangan

13 http://litbang.deptan.go.id/berita/one/852/ Kulit Buah Manggis Instan BB-Pascapanen Curi Perhatian Pengunjung PF2N Batam

14 http://lpse.deptan.go.id Layanan Pengadaan Secara Elektronik 15 http://mail.deptan.go.id Web Mail Kementan

16 http://multimedia.deptan.go.id Portal Multimedia Pertanian 17 http://perundangan.deptan.go.id Basisdata Undang-Undang 18 http://pphp.deptan.go.id/ Pengolahan & Pemasaran Hasil 19 http://ppvt.setjen.deptan.go.id/ PVT Perizinan

20 http://psp.deptan.go.id/ Prasarana & Sarana

21 http://puap.deptan.go.id/ Pengembangan Usaha Agribisnis Perdesaan (PUAP)

22 http://pusdatin.deptan.go.id/ Data Teknologi Informasi

23 http://pustaka-deptan.go.id/agritek.php Koleksi teknologi pertanian tepat guna (agriTEK) 24 http://pustaka.litbang.deptan.go.id/ Pustaka Publikasi

25 http://setjen.deptan.go.id/ Sekretariat 26 http://tanamanpangan.deptan.go.id/ Tanaman Pangan

Dari ke 26  Subdomain tersebut masing­masing memiliki   file index dan folder  yang independen yang bertujuan agar pemeliharaan bisa dibagi­bagi dan menjadi  tanggung   jawab   masing­masing   direktorat.   Antara  Subdomain dan  folder

keduanya   memiliki   fungsi   yang   sama   yaitu   untuk   mengelompokan   fungsi   dan  data. Tetapi ada perbedaaan penulisan alamat url ketika user melakukan browsing internet  antara   alamat url dalam  subdomain dan alamat url dalam folder situs  utama web Deptan, contoh sebagai berikut:

Tabel 14. Keterangan penulisan url

Penulisan url Keteragan

http://www.deptan.go.id/tanamanpangan tanamanpangan pada url ini berlaku sebagai folder yang ada dalam url http://www.deptan.go.id

http://tanamanpangan.deptan.go.id/ atau http://www.tanamanpangan.deptan.go.id/

tanamanpangan pada url ini berlaku sebagai

subdomain url http://www.deptan.go.id

Semua alamat url baik sebagai folder ataupun sebagai Subdomain akan ditulis di  dalam satu data log yang tersimpan di server web Deptan dengan alamat utamanya  adalah   http://www.deptan.go.id   dengan.   Walaupun   ada   perbedaan   penulisan   url  pada web browser, tapi format penulisan data lognya disamakan, sehingga pada  penelitian ini antara subdomain dan folder dianggap sebagai alamat yang sama.  

root

admin index.php

data.php index.php index.php

Level 1

Level 2

pusdatin

Tabel 3.14 Kesamaan penulisan request line pada web server Penulisan url Penulisan request line

http://www.deptan.go.id/tanamanpangan/data/index.php GET /tanamanpangan/data/index.php http://tanamanpangan.deptan.go.id/data/index.php GET /tanamanpangan/data/index.php

Penulisan  data  log   oleh  web server meliputi  semua   aktifitas  clickstream

yang   dilakukan   oleh   pengguna,   sehingga   berbagai   jenis   data   akan   ada   di  dalamnya.   Sehingga   perlu   pengelompokan   data   agar   data   yang   kurang   penting  bisa   diabaikan.  Berdasarkan   penelaahan   terhadap   data   Log   web   Deptan   telah  diperoleh   data   pohon  (tree) sebagai   bahan   pemetaan   situs   web   deptan.  Diasumsikan alamat utama web deptan (http://deptan.go.id) merupakan root dari  pohon, kemudian subdomain dan folder yang ada di bawahnya merupakan  node  level 1, secara umum digambarkan sebagai berikut:

Gambar 6. Struktur data Pohon

Setelah dilakukan penelusuran data log dan mengakses langsung data pada Web Deptan diperoleh sebanyak 20924node untuk selanjutnaya dianalisis dengan teknik data mining association rule yaitu menggunakan analisis keranjang belanja

(market basket analysis). Adapun algoritme yang digunakan adalah Algoritme Apriori untuk mengetahui itemset, frequent Itemset dan Confidence. Berikut tahapan analisis nya:

a. Penentuan Itemset 

Pada   penelitian   ini  itemset adalah   kumpulan   data   direktori   (node)   yang  diakses oleh pengguna. 

Itemset I = {1, 2, 3, 4, ... ,20924)} adalah sebagai kumpulan node.

b. Transaksi   atau   Kejadian   N   merupakan   sekumpulan   n   transaksi   (Tn),  transaksi   dikodekan dengan IP Address dan tanggal, dengan batasan satu  kali transaksi adalah dihitung per hari.

Berdasarkan analogi terhadap prilaku customer ketika belanja, pada sekali  transaksi bisa membeli suatu jenis barang lebih dari satu item dengan kode  unik   untuk   pencatatan   di  database  berupa   nomor   faktur.   Begitupun   pada  proses   akses   IP   Address   terhadap server per   satu   satuan   waktu   bisa  mengakses   node   yang   sama   berkali­kali,   berikut   ini   contoh   transaksi   IP  Address ketika mengakses kumpulan node (itemset).

Tabel 15 Contoh transaksi akses node

No Kode Transaksi IP Address Tanggal Node Aktivitas

1 1.187.206.56-120212 1.187.206.56 12/02/12 /kln/berita/wto/menu_wto.htm 2 1.195.130.141-120312 1.195.130.141 12/03/12 /wap/index.php 3 1.234.45.130-110412 1.234.45.130 11/04/12 /wap/index.php 4 1.234.45.130-110612 1.234.45.130 11/06/12 /wap/index.php 5 1.234.45.130-110712 1.234.45.130 11/07/12 /wap/index.php 6 1.234.45.130-120412 1.234.45.130 12/04/12 /wap/index.php 7 1.4.134.254-120312 1.4.134.254 12/03/12 /index1.php 9 1.4.134.254-120312 1.4.134.254 12/03/12 /pengumuman/cover_es.htm 10 1.4.134.254-120312 1.4.134.254 12/03/12 /event.php 11 10.10.12.15-110512 10.10.12.15 11/05/12 /index1.php 12 10.10.12.15-110512 10.10.12.15 11/05/12 /event.php 13 10.10.12.15-110512 10.10.12.15 11/05/12 /pengumuman/cover_es.htm

c. Berdasarkan   tabel   4.4   diperoleh   8   kali   transaksi   N   =  {1.187.206.56­120212,  1.195.130.141­120312, 1.234.45.130­110412, 1.234.45.130­110612, 1.234.45.130­110712,  1.234.45.130­120412, 1.4.134.254­120312, 10.10.12.15­110512}

d. Perhitungan Support

Perhitungan support diperoleh dari jumlah seluruh transaksi yang memuat  suatu   node   dibandingkan   dengan     keseluruhan   transaki.   atau   apabila  dirumuskan:

Support (B) = (jumlah transaksi mengandung B / Total transaksi) % Misalnya kemunculan node 8348(index1.php) adalah 10162, sedangkan total  keseluruhan   transaksi   adalah  115536       maka  support­nya   adalah  10162/115536 = 8.796%. 

e. Confidence (keyakinan) 

Nilai keyakinan diperoleh dengan rumus sebagai berikut:  Conf(X → Y) =  SuppXY

SuppX ; 

= PXYPX ;

Misalkan Jumlah transaksi node (8348,19262) atau (/index1.php,/respon.php)  adalah 1751, sedangkan total keseluruhan transaksi adalah 115536     maka 

support­nya adalah  1751/115536= 1.516%.

Untuk melakukan pemangkasan maka ditentukan terlebih dahulu minimum 

Dokumen terkait