• Tidak ada hasil yang ditemukan

TINJAUAN PUSTAKA

2.2 Data Mining

Dalam 2 dekade ini telah terjadi peningkatan data yang sangat besar dari segala sektor dalam kehidupan sehari-hari. Di estimasikan setiap bulannya terjadi peningkatan data 20x lebih cepat dari bulan sebelumnya (Fayyad, Piatetsky-Shapiro dan Smyth 1996). Hal ini dapat mengakibatkan terjadinya penumpukan data yang berakibat pada kemungkinan tersisihnya data – data penting yang berguna. Data mining atau Knowledge discovery in Database (KDD) mempunyai kemampuan untuk melakukan pencarian dan menemukan data penting yang tersisih tersebut.

Gambar 2. Peningkatan Data Dalam 2 Dekade Terakhir (Sumber : Fayyad, Piatetsky-Shapiro dan Smyth ,1996)

Dalam 1 minggu terjadi 1- 5 kasus DBD KUNING

Dalam 3 minggu berturut-turut tidak terjadi kasus DBD.

HIJAU

Dalam 1 minggu terjadi lebih dari 5 kasus DBD MERAH

KETENTUAN KATEGORI

Berbagai definisi dari data mining dari beberapa refrensi, adalah sebagai berikut ;

Data mining adalah proses dalam mencari berbagai model, kesimpulan dan nilai dari kumpulan data yang diberikan (Kantardzic, 2003).

Data mining adalah proses menyarikan informasi dari kumpulan – kumpulan data (Brookshear, 2003).

Dari berbagai definisi tersebut, dapat di ambil suatu kesimpulan bahwa data mining berkaita n dengan mencari pola dan relasi yang tersembunyai dalam data yang besar dengan tujuan prediksi atau deskripsi. Terdapat 2 jenis data mining, yaitu directed data mining dan undirected data mining. Directed data mining digunakan jika sudah diketahui secara pasti apa yang akan di prediksi, sehingga proses pencarian pola dan relasi dapat langsung diarahkan pada tujuan tertentu, misalnya untuk membuat prediksi tentang sesuatu yang tidak kita ketahui, model ini sering di sebut model prediksi. Model seperti ini menggunakan pengalaman untuk menentukan nilainya. Salah satu kunci dari model prediksi ini adalah data yang cukup besar dengan hasil yang sudah diketahui, sehingga dapat digunakan dalam melatih model tersebut.

Undirected data mining berkaitan dengan menelusuri pola dan relasi dalam data, pada undirected data mining ini, tujuan yang ingin dicapai adalah bagaimana model yang kita buat dapat memberikan solusi atas persoalan yang kita permodelkan. Dalam prakteknya, data mining sering merupakan gabungan dari keduanya.

Proses dalam data mining adalah suatu proses yang interaktif dan iterative, melibatkan beberapa langkah dengan beberapa pertimbangan yang harus di buat oleh penggunanya. Fayyad, Piatetsky-Shapiro dan Smyth (1996) memberikan beberapa langkah dasar dalam mempersiapkan data mining

1. Mempersiapkan data set : memilih data, atau memfokuskan pada sample data yang akan kita cari pola atau relasinya

2. Membersihkan data dan memproses data

3. Mengurangi data, dalam proses ini menemukan feature yang berguna untuk merepresentasikan data disesuaikan dengan tujuan

4. Menyesuaikan tujuan dari data mining dengan metode data mining yang ada, seperti clustering, regression, classification, fuzzy

5. Explorasi analisis, model dan hipotesis, dalam proses ini di pilih algoritma, metode yang akan digunakan dalam mencari pola dari suatu data set.

6. Proses Data mining, mencari pola dan relasi dari data set.

7. Interpretasi pola – pola yang di dapat , dalam proses ini proses dapat berulang (iteratif) dari 1 sampai 7. Pada proses ini juga dapat dilengkapi dengan visualisasi dari pola yang didapat.

8. Menggunakan hasil dari pola dan relasi yang ditemukan. Pada proses ini dilakukan pemeriksaan dan perbaikan

Langkah – langkah dasar ini di ilustrasikan pada gambar 3,

Gambar 3 . Pembuatan Model dalam DataMining (adaptasi dari Berry and Linoff)

2.2.1. Klasifikasi dan Prediksi

Klasifikasi dan prediksi adalah dua bentuk analisis data yang bisa digunakan untuk mengekstrak model dari data yang berisi kelas-kelas atau untuk memprediksi trend data yang akan datang. Klasifikasi memprediksi data dalam bentuk katagori, sedangkan prediksi memodelkan fungsi-fungsi dari nilai yang kontinyu. Klasifikasi data dilakukan dengan dua tahapan. Pada tahap pertama, model dibentuk dengan menentukan kelas-kelas data. Model dibentuk dengan menganalisa database tuples yang dinyatakan dengan atribut.Dalam konteks klasifikasi, data tuples disebut juga disebut Data sample. Data sample ini membentuk training data set yang selanjutnya dianalisa untuk membangun model. Setiap sample yang membentuk training set disebut training sample dan secara acak dipilih dari sample population. Karena label kelas dari setiap training sample telah diketahui, maka tahapan ini disebut juga supervised learning. Supervised learning ini kebalikan dari unsupervised learning, dimana pada unsupervised learning label kelas dari setiap training sample tidak diketahui.

Pada tahap kedua, model digunakan untuk klasifikasi. Pertama, akurasi model prediksi (atau classifier) ditentukan menggunakan data test. Sample ini secara acak dipilih, independent dengan training sample. Akurasi dari model pada test set adalah prosentase dari sample test set yang diklasifikasikan oleh model dengan benar. Untuk setiap sample test, label kelas yang telah diketehui dibandingkan dengan model kelas prediksi yang telah dilatih untuk sample tersebut. Jika akurasi dari model bisa diterima, maka model bisa digunakan untuk mengklasifikasikan data tuples dimana label kelasnya tidak diketahui. Misalnya, classification rule yang telah dihasilkan dari analisis data dari pelanggan yang ada dapat digunakan untuk memprediksi credit rating dari pelanggan baru.

Prediksi bisa dipandang sebagai pembentukan dan penggunaan model untuk menguji kelas dari sample yang tidak berlabel, atau untuk menguji nilai atau rentang nilai dari suatu atribut. Dalam pandangan ini, klasifikasi dan regresi adalah dua jenis masalah prediksi, dimana klasifikasi digunakan untuk memprediksi nilai-nilai diskrit atau nominal, sedangkan regresi digunakan untuk memprediksi nilai-nilai yang kontinyu. Untuk selanjutnya penggunaan istilah prediction untuk memprediksi kelas yang berlabel disebut classification, dan

pengggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinyu sebagai prediction (Han & Kamber, 2001).

2.2.2 Metodologi Data mining

Ada beberapa konsep yang penting pada data mining. Konsep pertama berkaitan dengan mencari pola di dalam data. Biasanya berupa kumpulan data yang sering muncul. Tetapi secara umum berupa suatu daftar atau pola data yang muncul lebih sering dari yang diharapkan saat dilakukan secara acak. Konsep yang kedua adalah sampling, yang bertujuan untuk memperoleh keterangan mengenai populasi dengan mengamati hanya sebahagian saja dari populasi itu.

Hal lain yang juga penting yang berhubungan dengan data mining adalah validasi model prediksi yang muncul dari algoritma data mining. Model digunakan untuk membuat prediksi tentang suatu record yang menggambarkan keadaan nyata yang baru, dan model terbatas hanya merefleksika n basis data histori dimana model tersebut dibuat. Model adalah deskripsi dari data historis dimana model tersebut dibangun untuk bisa diterapkan ke data baru dengan tujuan membuat prediksi tentang nilai-nilai yang terputus atau untuk membuat pernyataan tentang nilai yang diharapkan, sedangkan Pola adalah suatu kejadian atau kombinasi kejadian dalam suatu basis data yang terjadi atau muncul lebih sering dari yang diharapkan (Berson et al., 2001).

Gambar proses pembuatan datamining dengan menggunakan konsep Berson et al disajikan dalam gambar berikut ini

Data Historis Model Pembuatan Model Record Prediksi 1 4 3

Gambar 4. Model proses pembuatan data mining Sumber: Berson, 2001.

2.2.3. Teknik Data mining

Ada tiga hal pokok yang harus diperhatikan untuk keberhasilan penerapan data mining, yaitu; teknik data mining, data itu sendiri, dan model data. Teknik adalah pendekatan umum untuk memecahkan masalah, dan biasanya terdapat banyak cara yang bisa digunakan. Masing-masing cara mempunyai algoritma nya sendiri-sendiri. Istilah teknik digunakan untuk menunjukkan pendekatan konseptual untuk menyaring informasi dari data. Algoritma menunjukkan detil tahap demi tahap dari cara tertentu untuk mengimplementasikan suatu teknik.

Data mining bisa berupa predictive atau descriptive. Perbedaan ini menunjukkan tujuan dari penggunaan data mining. Tujuan utama predictive data mining adalah mengotomatisasikan proses pembuatan keputusan dengan membuat model yang punya kemampuan untuk melakukan prediksi atau mengestimasi suatu nilai. Umumnya hasil dalam predictive data mining akan langsung ditindak lanjuti Sehingga tolok ukur yang paling penting pada model adalah akurasinya. Data mining sering juga bersifat descriptive. Tujuan utama descriptive data mining adalah untuk menggali pola yang ada di dalam data. Descriptive data mining sering menghasilkan action, tetapi bukan berupa urutan aksi yang bisa diotomatisasikan secara langsung dari hasil model (Berry & Linoff, 2000).

Descriptive mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Clustering, Association, dan Sequential mining adalah beberapa contoh dari teknik descriptive mining.

Predictive mining, yaitu proses untuk menemukan pola dari data untuk membuat prediksi. Classification, Regression dan Deviation adalah teknik dalam predictive mining.

2.2.3.1 Association Rule

Association rule merupakan salah satu teknik data mining yang paling banyak digunakan dalam penelusuran pola pada sistem pembelajaran unsupervised. Metodologi ini akan mengambil seluruh kemungkinan pola-pola yang diamati dalam basis data. Association rule menjelaskan kejadian-kejadian yang sering muncul dalam suatu kelompok. Misalnya metodologi ini bisa digunakan untuk menganalisa produk-produk mana saja yang sering dibeli oleh

seorang pelanggan secara bersamaan (analisa keranjang belanja). Hasil analisis tersebut bisa digunakan untuk menentukan peletakan produk di toko.

Satu itemset adalah himpunan bagian A dari semua kemungkinan item I. Satu itemset yang mengandung i item disebut i-itemset. Prosentase transaksi yang mengandung itemset disebut support. Untuk suatu itemset yang akan diamati, support-nya harus lebih besar atau sama dengan nilai yang dinyatakan oleh user, sehingga itemset tersebut dikatakan sering muncul (frequent).

Bentuk umum aturan asosiasi adalah A1,A2,…,An → B1,B2,…,Bm, yang berarti jika item Ai muncul, item Bj juga muncul dengan peluang tertentu.

Misalkan X adalah itemset. transaksi T dikatakan mengandung X jika dan hanya jika X ⊆ T. Aturan X ⇒ Y menyatakan himpunan basis data transaksi dengan tingkat kepercayaan (confidence) C, jika C% dari transaksi dalam D yang mengandung X juga mengandung Y. Rule X Y mempunyai support dalam transaksi set D jika S% dari transaksi dalam basis data berisi X ∪ Y. Tingkat kepercayaan menunjukkan kekuatan implikasi, dan support menunjukkan seringnya pola terjadi dalam rule. Sebagai contoh diberikan aturan : A, B ⇒ C dengan S = 0.01 dan C = 0.8. Hal ini berarti bahwa 80% dari semua pelanggan yang membeli A dan B juga membeli C, dan 1% dari semua pelanggan membeli ketiga item tersebut.

Mining association rule dilakukan dalam dua tahap, yaitu

1. Mencari semua association rule yang mempunyai minimum support Smin dan minimum confidence Cmin. Itemset dikatakan sering muncul (frequent) jika Support(A) ≥ Smin.

2. Menggunakan itemset yang besar untuk menentukan association rule untuk basis data yang mempunyai tingkat kepercayaan C di atas nilai minimum yang telah ditentukan (Cmin.).

2.2.3.2 Classification-Based Association

Saat ini, salah satu teknik data mining telah dikembangkan adalah dengan menerapkan konsep association rule mining dalam masalah klasifikasi. Ada beberapa metode yang bisa digunakan, antara lain association rule clustering system (ARCS) dan associative classification (Han & Kamber, 2001). Metode

ARCS melakukan association rule mining didasarkan pada clustering kemudian menggunakan aturan yang dihasilkan untuk klasifikasi. ARCS, melakukan association rule mining dalam bentuk Aquant1 ∧ Aquant2 ⇒ Acat, dimana bentuk Aquant1 dan Aquant2 adalah data test yang atributnya punya rentang nilai, Acat menunjukkan label kelas untuk atribut kategori yang diberikan dari training data.

Metode associative classification mining menghasilkan aturan dalam bentuk condset y, dimana condset adalah sekumpulan item dan y adalah label kelas. Aturan yang sesuai dengan minimum support tertentu disebut frequent. Rule mempunyai support s jika s% dari sample dalam data set yang mengandung condset dan memiliki kelas y. Aturan yang sesuai dengan minimum confidence disebut accurate. Aturan mempunyai confidence c jika c% dari sample dalam data set yang mengandung condset memiliki kelas y. Jika beberapa rule mempunyai condset yang sama, maka rule dengan confidence tertinggi dipilih sebagai possible rule (PR). Metode associative classification mining menggunakan algoritma association rule, seperti algoritma Appriori untuk menghasilkan association rule, kemudian memilih sekelompok aturan yang mempunyai kualitas tinggi dan menggunakan aturan tersebut untuk memprediksi data. Associative classification masih kurang efisien karena seringkali menghasilkan aturan dalam jumlah yang besar (Yin & Han, 2003).

Metode classification-based association lainnya adalah CPAR (Classification based on Predictive Association Rule). Algoritma ini mengambil ide dari FOIL (First Order Inductive Leaner) dalam menghasilkan aturan dan mengintegrasikannya dengan associative classification.

2.2.4. Algoritma Appriori

Algoritma apriori menghitung seringnya itemset muncul dalam basis data melalui beberapa iterasi. Setiap iterasi mempunyai dua tahapan; menentukan kandidat dan memilih serta menghitung kandidat. Pada tahap pertama iterasi pertama, himpunan yang dihasilkan dari kandidat itemset berisi seluruh 1-itemset, yaitu seluruh item dalam basis data. Pada tahap kedua, algoritma ini menghitung support-nya mencari melalui keseluruhan basis data Pada akhirnya hanya i-itemset dengan batas minimum tertentu saja yang dianggap sering muncul

(frequent). Sehingga setelah iterasi pertama, seluruh i-itemset yang sering muncul akan diketahui. Pada iterasi kedua, algoritma appriori mengurangi sekelompok kandidat itemset yang dihasilkan dari iterasi pertama dengan menghapus kandidat itemset yang tidak sering muncul. Penghapusan ini berdasarkan pengamatan yaitu apakah itemset tersebut sering muncul atau tidak.

1. k = 1

2. C1 = I (semua item) 3. While Ck > 0

( a ). Sk = Ck

( b ).Ck + 1 = Semua himpunan dengan k=1 elemen yang terbentuk dengan menggabungkan dua itemset dalam sk

( c ). Ck + 1 = Ck + 1 ( d ). S = S + Sk ( e ). k + + 4. return S

Tabel 2. Transaksi Penjualan Barang

A B C D E

Pelanggan 1 1 0 1 1 0 Pelanggan 2 0 1 1 0 1 Pelanggan 3 1 1 1 0 1 Pelanggan 4 0 1 0 0 0

Misalkan pada tabel 2, akan dicari seluruh itemset dengan minimal support Smin = 50%. Sehingga itemset dianggap sering muncul jika ia terdapat pada paling tidak di 50% transaksi. Dalam setiap iterasi, algoritma appriori membentuk kandidat set, menghitung jumlah kejadian dari setiap kandidat dan memilih itemset didasarkan pada minimum support yang telah ditentukan sebelumnya yaitu 50%.

Pada tahap pertama iterasi pertama, semua item adalah kandidat. Algoritma appriori hanya menelusuri semua transaksi dalam basis data dan membuat daftar kandidat, yaitu ;

C1 = [ (A), (B), (C), (D), (E) ] L1 = [ (A), (B), (C), (D), (E) ]

Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support Smin, kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi:

L1 = [(A),(B), (C), (E) ]

D dikeluarkan karena nilai S = 25%, hanya ada satu transaksi dari keseluruhan empat transaksi..

Untuk menelusuri himpunan itemset, karena himpunan bagian (subset) dari 2-itemset juga mempunyai minimum support yang sama, algoritma appriori menggunakan L1 * L1 untuk membuat kandidat. Operasi * didefinisikan sebagai berikut ;

Lk * Lk = [X U Y dimana X,Y Ε Lk, (X∩Y=K-1 ), Untuk k =1 ⇒ |L1| . |(L1)-1)/2| = 4 . 3/2 = 6

Pada iterasi kedua kandidat berisi :

C2 = [ (A,B), (A,C), (A,E), (B,C), (B,E), (C,E) ].

Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support Smin, kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi:

L2 = [ (A,C), (B,C), (B,E), (C,E) ]

Himpunan 3-itemset dihasilkan dari S2 menggunakan operasi yang sudah ditentukan sebelumnya L2 * L2. Langkah praktisnya, dari L2 dengan item yang pertama sama, yaitu (B,C), (B,E),dinyatakan pertama. Kemudian algoritma appriori akan mencek apakah 2-itemset (C,E), yang berisi item kedua dari (B,C), (B,E) terdapat pada L2 atau tidak. Karena (C,E) ada dalam L2, maka ( B,C,E ) menjadi kandidat 3-itemset.

Karena tidak ada kandidat 4-itemset, maka algoritma ini berakhir.

2.2.5. Membuat Association Rule berdasarkan Frequent Itemset

Tahap kedua dalam penelusuran assosiation rule didasarkan pada seluruh i-itemset yang sering muncul, yang didapat dari tahap pertama. Untuk rule yang mengandung X1, X2, X3 → X4, rule tersebut dianggap bermakna jika kedua itemset tersebut X1, X2, X3, X4 dan X1, X2, X3 adalah frequent. Sehingga tingkat kepercayaan C dari rule tersebut dihitung sebagai hasil bagi dari support itemset, yaitu :

C = S(X1, X2, X3, X4) / S(X1, X2, X3).

Strong association rule adalah rule dengan tingkat kepercayaan C diatas Smin. Misalkan dari tabel 1 akan dicek apakah association rule (B,C) E adalah strong rule.

Pertama harus dipilih hubungan support dari tabel L2 dan L3. S(B,C) = 2, S(B,C,E) = 2

C((B,C) → E ) = S(B,C,E)/S(B,C) = 2/2 = 1 (100%)

Karena tingkat kepercayaan adalah maksimal, maka jika transaksi berisi item B dan C maka transaksi tersebut juga berisi item E.

2.2.6. Classification based on Predictive Association Rules (CPAR)

Klasifikasi pada penelitian ini menggunakan association rule, menurut Yin X, Han J, 2003, algoritma yang efektif untuk digunakan dalam masalah klasifikasi adalah CPAR. Pada algoritma ini klasifikasi diimplementasikan dalam tiga tahap: rule generation, rule evaluation dan classification.

Pada proses rule generation, CPAR membangun rule dengan menambahkan literal satu persatu. Pada setiap tahapan proses, CPAR menghitung Gain dari setiap perhitungan. Setelah masing-masing sampel diproses untuk mendapatkan rule, sampel ini digunakan kembali didalam perhitungan Gain tetapi dengan mengurangi bobot dengan decay factor. Bobot sampel dikurangi hingga mencapai nilai minimum yang dihitung oleh parameter w yaitu bobot seluruh sampel positif. Bobot seluruh contoh pada awal proses diset 1.

Setelah proses rule generation, CPAR mengevaluasi setiap rule untuk menentukan kekuatan prediksinya. Untuk rule r = p1 p2 ... pn → c, CPAR mendefinisikan ekspektasi akurasi sebagai sebagai berikut :

L.A = (nc+1) / (ntotal + f)

Dimana L.A adalah Laplace Accuracy, f adalah jumlah kelas, ntotal adalah juimlah total sampel yang memenuhi body dari aturan, nc adalah jumlah sampel yang memenuhi kelas c.

Klasifikasi berupa sekumpulan rule untuk setiap class, CPAR menggunakan s rules terbaik setiap kelas, yang dipilih berdasarkan Laplace accuracy.

Pada algoritmna CPAR nilai gain yang dipilih adalah nilai gain yang terbaik pada setiap iterasinya, sehingga untuk atribut yang nilai gain-nya hampir sama, maka CPAR melakukan pemilihan yang terbaik. Pemilihan atribut tersebut dilakukan dengan menghitung dan menerapkan gain similarity ratio. Semua atribut dengan nilai gain lebih besar dari best Gain x gain similarity ratio akan dipilih dan diproses lebih lanjut

2.2.6.1 Membuat Rule Dalam CPAR

Dalam datamining, setiap aturan di-bangun dari dataset yang tersisa, CPAR hanya memilih literal yang terbaik dan mengabaikan seluruh literal lainnya. CPAR membuat rule s dengan menambahkan literal satu per satu. Setelah CPAR menemukan literal terbaik p, literal lainnya misalnya q yang Gain-nya mirip dengan p (misalnya hanya berbeda 1%) akan dicari. Selain terus membangun rule dengan menambahkan p ke r, q juga ditambahkan ke current rule r untuk membuat rule baru r’

2.2.7 Membangun Model Prediksi

Keberhasilan dalam membangun model prediksi dalam datamining lebih banyak tergantung pada proses bukan pada teknik yang digunakan, dan proses tersebut sangat tergantung pada data yang digunakan untuk menghasilkan model .Tantangan utama dalam membangun model prediksi adalah mengumpulkan data awal yang cukup dalam membangun suatu aturan - aturan. Dalam preclassified, hasilnya sudah diketahui, dan karenanya preclassified digunakan untuk melatih model, himpunan data tersebut disebut model set.

Berry & Linoff memberikan langkah-langkah dasar dalam membangun model prediksi

1. Model dilatih menggunakan preclassified data, dengan mengambil sebagian data dari dataset yang disebut training set. Pada tahap ini, algoritma data mining mencari pola-pola dari nilai yang diprediksi.

2. Model diperbaiki menggunakan himpunan bagian lain dari data yang disebut test set. Model perlu diperbaiki agar tidak hanya bisa bekerja pada training set.

3. Performance model diestimasi atau membandingkan performance beberapa model, dengan menggunakan himpunan data ketiga, yang didapat dari gabungan himpunan data pertama dan kedua, yang disebut evaluation set. 4. Model diterapkan ke score set. Score set bukan preclassified, dan bukan

bagian dari model set. Hasil dari data tersebut tidak diketahui. Predictive score akan digunakan untuk membuat keputusan.

Dataset adalah preclassified data yang digunakan untuk membangun model. Dataset perlu dipecah ke dalam tiga komponan, training set, test set dan evaluation set.

Gambar 5 menggambarkan langkah-langkah dasar dalam membangun model prediksi (Berry & Linoff, 2000)

Training Set Test Set Evaluation Set Score Set Model (Kasar) Model (Perbaikan) Model (terbaik) Prediksi Training set digunakan untuk membangun model

Test set digunakan

untuk memperbaiki model

Evaluation set digunakan

untuk menilai akurasi yang diharapkan dari model saat diterapkan ke data di luar model set

Model yang terbaik diterapkan ke score set untuk menghasilkan prediksi

Gambar 5. Langkah-langkah membangun model prediksi Sumber: Berry & Linoff, 2000

Dokumen terkait