• Tidak ada hasil yang ditemukan

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK

N/A
N/A
Protected

Academic year: 2021

Membagikan "ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK"

Copied!
8
0
0

Teks penuh

(1)

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN

UNTUK MENENTUKAN NODE ORDERING

PADA ALGORITMA KONSTRUKSI STRUKTUR

BAYESIAN NETWORK

TESIS

Karya tulis sebagai salah satu syarat Untuk memperoleh gelar Magister dari

Institut Teknologi Bandung

Oleh

IVAN MICHAEL SIREGAR

NIM: 23505001

Program Studi Magister Informatika

SEKOLAH TEKNIK ELEKTRO DAN INFORMATIKA

INSTITUT TEKNOLOGI BANDUNG

(2)

ABSTRACT

Knowledge discovery in data (KDD) is a process of discovering interesting knowledge from large amounts of data, and data mining is one of its process. Data mining is a technology to extract useful pattern. It has two methods: predictive and descriptive. At predictive method, Bayesian network (BN) is one of classification technics which is constructed using d-separation concept. Some of its algorithms need node ordering (NO). At descriptive method, sequential pattern (SP) is one of association technics, which represents time sequence of events. This research is aimed to discover relevancy between NO and SP, especially the usage of SP as NO information to algorithm of learning BN from data.

NO written by notation (n1,n2,n3,n4,...ni) and SP by notation s1,s2,s3,s4,...sj have

similarities in notation and the order of node appereance. Some algorithms for learning BN from data can use NO to find proper cut which reduces total number of conditional independency test (CI test). SP uses frequent itemset to discover the sequence. This research is focused on exploring characteristics of NO and SP, shows that NO implies not only temporal information but also causal information, while at the other hand SP represents only temporal information. Therefore, SP can be utilized for constructing NO. This can be achieved by adding some causality tests.

This thesis concludes that SP represents temporal information can be utilized for constructing NO by adding some causality tests. SP that represents temporal information is subset of NO that represents both temporal information and causality. Future research can be done on dynamic Bayesian network area that represents temporal information.

Keywords: knowledge discovery in data, data mining, Bayesian network,

d-separation, node ordering, CI test, sequential pattern, temporal information, causality.

(3)

ABSTRAKSI

Knowledge discovery in data (KDD) adalah proses mencari dan menemukan pengetahuan yang bermanfaat dari kumpulan data, dan data mining adalah salah satu prosesnya. Data mining adalah teknologi untuk mengekstrak pola yang bermanfaat dengan dua pendekatan yaitu prediktif dan deskriptif. Pada pendekatan prediktif, Bayesian network (BN) adalah teknik pada klasifikasi yang dibangun dengan konsep d-separation. Beberapa algoritma konstruksi struktur BN membutuhkan node ordering (NO). Pada pendekatan deskriptif, sequential pattern (SP) adalah salah satu teknik asosiasi, yang merepresentasikan urutan waktu terjadinya peristiwa. Tujuan penelitian adalah melakukan kajian korelasi SP dan NO, dan secara secara khusus pemanfaatan SP sebagai informasi NO pada algoritma konstruksi struktur BN.

NO dengan notasi (n1,n2,n3,n4,...ni) dan SP dengan notasi 〈s1,s2,s3,s4,...sj〉 memiliki

kesamaan dalam penulisan notasi dan urutan kemunculan, yang menjadi dasar hipotesis bahwa SP dapat dimanfaatkan sebagai NO. Dalam algoritma konstruksi struktur BN, NO berperan saat menentukan cut set yang tepat sehingga jumlah pengujian conditional independency (CI test) dapat dikurangi. SP memanfaatkan konsep frequent itemset dalam menemukan sequence. Penelitian yang difokuskan pada karakteristik serta peran dari NO dan SP menunjukkan bahwa bahwa NO merepresentasikan informasi temporal dan kausalitas, sedangkan SP hanya merepresentasikan informasi temporal. SP dapat dimanfaatkan untuk mempersempit ruang pencarian dalam menentukan NO. SP dapat juga dimanfaatkan sebagai NO namun pada SP harus ditambahkan uji kausalitas sehingga SP merepresentasikan informasi temporal dan kausal.

Sebagai kesimpulan, dinyatakan bahwa secara matematis SP adalah himpunan bagian dari NO. Dalam konteks konstruksi struktur BN, SP dapat dimanfaatkan sebagai NO namun tidak memadai. Penelitian lebih lanjut dapat dilakukan dalam dynamic Bayesian network yang merepresentasikan informasi temporal.

Kata kunci: knowledge discovery in data, data mining, Bayesian network, d-separation, node ordering, CI test, sequential pattern, temporal, kausal.

(4)

PENGESAHAN

ANALISIS PEMANFAATAN SEQUENTIAL PATTERN

UNTUK MENENTUKAN NODE ORDERING

PADA ALGORITMA KONSTRUKSI STRUKTUR

BAYESIAN NETWORK

Oleh

Ivan Michael Siregar

NIM: 23505001

Program Studi Magister Informatika Institut Teknologi Bandung

Menyetujui Tim Pembimbing

Tanggal 03 Juli 2008

Pembimbing 1

Dr. Ir. Benhard Sitohang

Pembimbing 2

(5)

PEDOMAN PENGGUNAAN TESIS

Tesis S2 yang tidak dipublikasikan terdaftar dan tersedia di Perpustakaan Institut Teknologi Bandung, dan terbuka untuk umum dengan ketentuan bahwa hak cipta ada pada pengarang dengan mengikuti aturan HaKI yang berlaku di Institut Teknologi Bandung. Referensi kepustakaan diperkenankan dicatat, tetapi pengutipan atau peringkasan hanya dapat dilakukan seizin pengarang dan harus disertai dengan kebiasaan ilmiah untuk menyebutkan sumbernya.

Memperbanyak atau menerbitkan sebagian atau seluruh tesis haruslah seizin Direktur Program Pascasarjana Institut Teknologi Bandung.

(6)

KATA PENGANTAR

Segala pujian, hormat, dan kemuliaan hanya bagi Tuhan Yesus Kristus yang telah menjadi Penolong dalam menyelesaikan penelitian ini. Tulisan ini kupersembahkan untuk kemuliaanMu.

Terimakasih yang tulus dari hati yang terdalam kepada kedua dosen pembimbing yaitu Bapak Dr. Ir. Benhard Sitohang dan Ibu Dr. Ir. G.A. Putri Saptawati, M.Comm yang telah memberikan bimbingan dan bantuan selama melakukan penelitian ini. Mohon maaf atas segala kesalahan dan kekurangan yang ada Terimakasih juga kepada kedua dosen penguji yaitu Bapak Dr. tech. Saiful Akbar, S.T., M.T. dan Bapak Adi Mulyanto, S.T., M.T untuk segala masukan konstruktif dalam penyempurnaan tulisan ini.

Terimakasih kepada keluarga yang telah memberikan dukungan lewat doa yang penuh kuasa, sehingga proses pendidikan dapat selesai dengan sangat baik. Sungguh mujizat itu nyata bagi kita.

Bandung, 30 Juni 2008

(7)

DAFTAR ISI

ABSTRACT ... i

ABSTRAKSI ... ii

PENGESAHAN ... iii

PEDOMAN PENGGUNAAN TESIS ... iv

KATA PENGANTAR ...v

DAFTAR ISI ... vi

DAFTAR GAMBAR ... vii

BAB 1 ...1 PENDAHULUAN ...1 1.1. Latar Belakang...1 1.2. Rumusan Masalah...4 1.3. Tujuan Penelitian...7 1.4. Batasan Masalah ...7 1.5. Metodologi...7 BAB 2 ...9 DASAR TEORI ...9 2.1. Bayesian Network...9 2.1.1. Konsep Dasar...9

2.1.2. Conditional Independency Test (CI Test)...15

2.1.3. Directional Separation (d-separation)...17

2.2. Three Phases Dependency Analysis Phi (TPDA -∏) ...20

2.2.1. Algoritma TPDA ∏...20

2.3. Node Ordering, Kausalitas, dan Informasi Temporal...24

2.4. Sequential Pattern ...28

2.4.1. Konsep dasar ...28

2.4.2. Teori Sequential Pattern ...30

2.4.3. Contoh Sequential Pattern ...32

BAB 3 ...34

ANALISIS HIPOTESIS ...34

3.1. Node Ordering ...34

3.2. Sequential Pattern ...37

3.3. Analisis Hipotesis ...39

3.1.1. Kesimpulan Analisis Hipotesis...43

BAB 4 ...46

KESIMPULAN DAN SARAN...46

4.1. Kesimpulan Penelitian ...46

4.2. Saran ...47

PUSTAKA ...48

LAMPIRAN A ...50

BAYESIAN NETWORK DAN TEORI INFORMASI...50

A.1. Konsep Dasar ...50

A.2. Kondisi Markov ...52

LAMPIRAN B ...59

ALGORITMA TPDA ∏...59

B.1. Algoritma TPDA ∏...59

B.2. Menentukan Minimum Cut Set...62

LAMPIRAN C ...65

SEQUENTIAL PATTERN MINING...65

(8)

DAFTAR GAMBAR

Gambar I.1. Ilustrasi langkah-langkah dalam proses KDD [HAN06] ...2

Gambar II.1. Bayesian network [NEA04] ...11

Gambar II.2. Representasi nilai dari simpul-simpul pada BN pada gambar II.1 ...11

Gambar II.3. DAG yang digunakan untuk mengilustrasikan d-separation...17

Gambar II.4. DAG-DAG ini merupakan ekuivalen Markov,...19

Gambar II.5. DAG pattern yang merepresentasikan kelas ekuivalen Markov ...19

pada gambar II.3 [NEA04] ...19

Gambar II.6. Hasil fase 1, 2, 3 dari algoritma TPDA ∏: ...21

(a) Graf sesungguhnya (b) Hasil fase 1...21

(c) Hasil fase 2 (d) Hasil fase 3...21

Gambar II.7. Struktur BN dengan dua correct ordering yaitu...25

A-B-C-D-B dan A-B-D-C-E...25

Gambar II.9. Basis data dikelompokkan berdasarkan id_pelanggan ...33

Gambar II.10. Sequence pelanggan...33

Gambar III.1. Cuplikan proses pembentukan sequential pattern:...38

(a) Data seluruh transaksi dikelompokkan dan diurutkan (b) Sequence pelanggan ...38

Gambar L.1. Cut set 52 Gambar L.2. Sebuah DAG untuk mengilustrasikan kondisi Markov [NEA04] ...53

Gambar L.3. Kebebasan kondisional dari DAG pada gambar lampiran 2...53

Gambar L.4. IP({D},{A|B}) dapat diperoleh dari kondisi Markov [NEA04] ...54

Gambar L.5. Distribusi probabilitas yang hanya memiliki IP({X},{Z}|{Y}) faithful terhadap DAG pattern ini...56

Gambar L.6. DAG faithful ...57

Gambar L.7. Skema pembentukan struktur BN dengan TPDA ∏...59

Gambar L.8. Algoritma minimum cut-set...63

Gambar L.9. Basis data transaksi pelanggan yang asli ...66

Gambar L.10. Basis data yang diurutkan berdasarkan id_pelanggan dan waktu_transaks..67

Gambar L.11. Basis data sequence pelanggan ...67

Gambar L.12. Large itemset...68

Gambar L.13. Basis data yang telah ditransformasi...69

Gambar L.14. Menentukan maximal sequence...70

Referensi

Dokumen terkait

Penelitian ini mempunyai latar belakang masalah Bank Rakyat Indonesia (BRI) merupakan bank yang memiliki reputasi yang sangat baik dari segi administrasi,

Dalam kesempatan tersebut, Nhel mengingatkan kembali bahwa 1 st Executive Council pada 26-27 September 2016 di Phnom Penh telah memutuskan 21 rancangan resolusi

Puji syukur kepada Allah SWT, karena atas rahmat-Nya penulis dapat menyelesaikan laporan akhir karya tulis ilmiah yang berjudul “Gambaran Histopatologi Endometrium

1) Pelindung kegiatan manusia merupakan fungsi dari ceiling yang utama, dengan bentuknya yang paling sederhana, ceiling sekaligus berfungsi sebagai atap. 2) Sebagai

Sarung tangan yang kuat, tahan bahan kimia yang sesuai dengan standar yang disahkan, harus dipakai setiap saat bila menangani produk kimia, jika penilaian risiko menunjukkan,

Proses berpikir subjek dengan kecerdasan linguistik dalam menyelesaiakan soal cerita pada tahap menerima informasi, subjek membaca soal berulang kali untuk

Puji syukur penulis panjatkan ke hadirat Allah SWT atas limpahan rahmat dan karunia-nya, sehingga penulis dapat menyelesaian skripsi yang berjudul,” Studi Mengenai Penggunaan

Menimbang, bahwa oleh karena dalam perkara a quo tidak ada perbedaan pendapat antara Penuntut Umum dengan Majelis Hakim tentang Dakwaan Alternatif mana yang