• Tidak ada hasil yang ditemukan

Data Mining II Estimasi

N/A
N/A
Protected

Academic year: 2021

Membagikan "Data Mining II Estimasi"

Copied!
27
0
0

Teks penuh

(1)

Data Mining II

Estimasi

Estimasi

Matakuliah Data warehouse Universitas Darma Persada

(2)

Tahapan proses datamining

Input (Data) Metode (Algoritma Data Mining) Output (Pola/Model/ Knowledge) Evaluation (Akurasi, AUC, RMSE, etc)

(3)

Atribut , Class dan tipe data

• Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi

• Class adalah atribut yang akan dijadikan target, sering juga disebut dengan label

• Tipe data untuk variabel pada statistik terbagi • Tipe data untuk variabel pada statistik terbagi

menjadi empat: nominal, ordinal, interval, ratio • Tapi secara praktis, tipe data untuk atribut pada

data mining hanya menggunakan dua:

1. Nominal (Diskrit)

(4)

Metode/Algoritma Data mining

1. Estimation (Estimasi):

– Linear Regression, Neural Network, Support Vector Machine, etc

2. Prediction/Forecasting (Prediksi/Peramalan):

– Linear Regression, Neural Network, Support Vector Machine, etc

3. Classification (Klasifikasi):

3. Classification (Klasifikasi):

– Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Random Forest, Linear Discriminant Analysis, Neural Network, etc

4. Clustering (Klastering):

– K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means, etc

(5)

Output/pola/model/knowledge

1. Formula/Function (Rumus atau Fungsi Regresi)

– WAKTU TEMPUH = 0.48 + 0.6 JARAK + 0.34 LAMPU + 0.2 PESANAN

2. Decision Tree (Pohon Keputusan)

3. Rule (Aturan)

3. Rule (Aturan)

– IF ips3=2.8 THEN lulustepatwaktu 4. Cluster (Klaster)

(6)

2 2.5 3 Iteration 6 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 0 0.5 1 1.5 y

(7)

Refund Yes No Splitting Attributes MarSt TaxInc YES NO NO NO Yes No Single, Divorced < 80K > 80K

(8)

Kriteria Evaluasi dan Validasi

Model

• Secara umum pengukuran model data mining mengacu kepada tiga kriteria: Akurasi

(Accuracy), Kehandalan(Reliability) dan

Kegunaan (Usefulness)

Kegunaan (Usefulness)

• Keseimbangan diantaranya ketiganya diperlukan karena belum tentu model yang akurat adalah

handal, dan yang handal atau akurat belum tentu berguna

(9)

Kriteria Evaluasi dan Validasi

Model

1. Akurasi adalah ukuran dari seberapa baik model

mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan. Terdapat berbagai model akurasi, tetapi

semua model akurasi tergantung pada data yang digunakan

2. Kehandalan adalah ukuran di mana model data mining diterapkan pada dataset yang berbeda akan menghasilkan sebuah model data mining dapat diandalkan jika

menghasilkan pola umum sama terlepas dari data testing yang disediakan

3. Kegunaan mencakup berbagai metrik yang mengukur apakah model tersebut memberikan informasi yang berguna.

(10)

Tool software datamining

• WEKA

• RapidMiner

• DTREG

• Clementine

• Matlab

• R

• SPSS

(11)

Data mining-Estimasi

• Estimasi merupakan fungsi minor kedua dari data mining.

• Suatu misal kita diberi sampel data volume air isi ulang yang diisi otomatis oleh mesin air isi ulang yang diisi otomatis oleh mesin pengisi dengan isi yang bervariasi,

sementara volume yang diharapkan adalah 2000 ml.

(12)
(13)

Data Mining-Estimasi (lanj)

• Berdasarkan data di atas pengisian air pada mesin tidak tepat 2000 ml

• Berapakah volume air pada umumnya di dalam botol yang diisikan?

• Berapa kira-kira volume air yang akan diisi pada • Berapa kira-kira volume air yang akan diisi pada botol di masa datang bila mesin mengisi (berapa kali) botol tersebut?

 estimasi/memperkirakan • Estimasi  estimasi titik

(14)

Data Mining-Estimasi (lanj)

• Istilah

• Populasi : objek yang diteliti, dalam hal ini air minum dalam botol

air minum dalam botol

• Sampel : contoh/cuplikan objek yang

diambil untuk dijadikan penelitian, dalam hal ini 12 botol minuman.

(15)

Estimasi Titik

• Estimasi titik : bentuk estimasi yang menghasilkan satu buah nilai estimasi saja yaitu berupa angka

• Populasi yang terus bertambah , tidak mungkin bagi kita untuk menghitung mean dan varians. • Karena itu kita perlu sampel untuk melakukan • Karena itu kita perlu sampel untuk melakukan

estimasi/perkiraan pada parameter di atas

• Mengapa perkiraan?  sebab bila kita memiliki perkiraan rata-rata dan varians yang akurat maka akan banyak pertanyaan yang dapat kita jawab dengan baik.

(16)

Estimasi titik (lanj)

• Cara memperkirakan

• Rata-rata populasi µ dapat diestimasi dengan rata-rata sampel

• Varians populasi σ2 dapat diestimasi dengan

(17)

Estimasi titik - contoh

• Rata-rata sampel = 24084/12 = 2007 ml

• Varians sampel = 10620/(12-1) = 965.45 ml2 • Standar deviasi = sqrt (965.45) = 31.07 ml

(18)

Estimasi titik - contoh

• Pengetahuan apa yang diperoleh dari informasi ini?

 pada umumnya setiap botol akan diisi air

 pada umumnya setiap botol akan diisi air

sebanyak 2007 ml (rata-rata), dengan varians sebesar 965.45 ml

(19)

Estimasi - selang

• Estimasi titik hanya menghasilkan satu angka, bagaimana bila diinginkan angka yang selang agar lebih mengakomodasi error.

• Menggunakan batas bawah (L) dan batas atas (U)

 batas bawah (L) = X - zα /2 . σx

(20)

Estimasi - selang

•Rata-rata sampel = 24084/12 = 2007 ml

(21)

Estimasi selang (lanj)

• Selang kepercayaan 95%, maka α = 100% -95% = 5%

• Selang kepercayaan 90% maka α = 10%

• Misal kita gunakan selang kepercayaan 95% • Misal kita gunakan selang kepercayaan 95%

 α = 5%

• zα /2 = 5/2 = 2.5 % = 0.025

(22)
(23)

Estimasi selang (lanj)

• Nilai 0.024998 ~ 0.0250 terletak dalam

baris 1.9 dan kolom 0.06 sehingga diperoleh 1.9 + 0.06 = 1.96

 zα /2 batas bawah = - 1.96 (nilai negatif)

 zα /2 batas atas = 1.96 (nilai positif)

• Tinggal menghitung σx

(24)

Estimasi selang (lanj)

• σ  standar deviasi  31.07 ml • n  banyaknya data  12 ml • σx = σ/sqrt(n)  31.07 / sqrt(12) = 8.97 • σx = σ/sqrt(n)  31.07 / sqrt(12) = 8.97 • Batas bawah (L) = 2007 – 19.6 (8.97) = 1989.42 ml • Batas atas (U) = 2007 + 19.6 (8.97) = 2024.58 ml

• Jadi selang kepercayaan 95% berdasarkan sampel tersebut adalah (1989.42 ; 2024.58 ) ml

(25)

Estimasi selang (lanj)

• Pengetahuan apa yang bisa diperoleh dari pengolahan data di atas?

 bila kita melakukan prosedur 100 kali

 bila kita melakukan prosedur 100 kali

maka akan berpeluang untuk mendapatkan 95 buah selang yang benar-benar mencakup populasi sesungguhnya.

(26)

latihan

• Sebuah bagian dari

depnaker bermaksud

memperkirakan besarnya penghasilan penduduk di suatu daerah. Lima belas orang yang telah bekerja orang yang telah bekerja diambil secara acak dan ditanya penghasilan

perbulan. Hasil yang diperoleh adalah

(27)

latihan

1. Perkirakan rata-rata dan varians

penghasilan penduduk daerah tersebut

2. Buatlah selang keyakinan 99%, dan 95% untuk rata-rata penghasilan. Bandingkan dari segi intervalnya

Referensi

Dokumen terkait

Dari hasil uji coba didapatkan bahwa Algoritma genetika telah berhasil diterapkan pada Data Mining untuk pencarian pola implikasi dalam suatu Basis

Association Rule Mining (ARM) merupakan task dari data mining yang berfungsi khusus untuk mencari aturan asosiasi antar item s dalam frequent itemsets pada dataset yang

Dapat menerapkan data mining dengan algoritma apriori pada data alumni TIF terkait mencari pola-pola yang mempengaruhi lama studi mahasiswa berdasarkan tiga

• Data mining merupakan proses iteratif dan interaktif untuk menemukan pola atau model yang baru, bermanfaat, dan dimengerti dalam suatu database yang sangat besar

Definisi umum dari Data Mining adalah proses pencarian pola-pola yang menarik hidden pattern berupa pengetahuan knowledge yang tidak diketahui sebelumnya dari suatu kumpulan data

Association Rule Mining (ARM) merupakan task dari data mining yang berfungsi khusus untuk mencari aturan asosiasi antar items dalam frequent itemsets pada dataset yang

Data Mining Data mining merupakan proses untuk mencari pola atau informasi yang ada didalam dataset yang sudah terpilih pada saat proses transformasi data, pengujian pada dataset yang

BUKU AJAR DATA MINING 10 berharga dari suatu set data yang besar dan kompleks, Tujuan utama dari data mining adalah mengidentifikasi pola, hubungan, atau pengetahuan yang berharga dan