Data Mining I. Mata kuliah Data Warehouse Universitas Darma Persada Oleh: Adam AB

(1)

(2)

(3)

Data Mining I

Mata kuliah Data Warehouse Universitas Darma Persada

(4)

Bussiness Intelligent

“proses perubahan data menjadi

informasi dan dari kumpulan informasi yang ada akan diambil polanya menjadi yang ada akan diambil polanya menjadi

(5)

Data Mining - definisi

• Istilah yang digunakan untuk menguraikan penemuan pengetahuan dalam database • Data mining menggunakan teknik statistik,

matematika, kecerdasan buatan dan machine matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan

mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar

(6)

Data Mining-definisi (lanj)

• Analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan

menemukan pola atau kecenderungan yang penting yang biasanya tidka disadari

penting yang biasanya tidka disadari keberadaannya. (pramudiono, 2006)

• Analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda

dengan sebelumnya yang dapat dipahamidan bermanfaat bagi pemilik data (Larose, 2005)

(7)

Data Mining-definisi (lanj)

• Data Mining ~ Knowledge Discovery ~ pattern recognition

(8)

Data mining-definisi (lanj)

• Disiplin ilmu yang mempelajari metode untuk

mengekstrak pengetahuan atau menemukan pola dari suatu data

1. Data: fakta yang terekam dan tidak membawa arti

arti

2. Pengetahuan: pola, aturan atau model yang muncul dari data

• Sehingga Data mining sering disebut Knowledge Discovery in Database (KDD)

• Konsep Transformasi

(9)

Data

• Tidak membawa arti

, merupakan

kumpulan dari fakta-fakta tentang suatu

kejadian

• Suatu catatan terstruktur dari suatu

transaksi

• Merupakan materi penting dalam

(10)

Pengetahuan

• Gabungan dari suatu pengalaman, nilai,

informasi kontekstual dan juga pandangan pakar yang memberikan suatu framework untuk mengevaluasi dan menciptakan

pengalaman baru dan informasi

(Thomas H. Davenport, Laurence Prusak) (Thomas H. Davenport, Laurence Prusak)

• Bisa berupa solusi pemecahan suatu masalah,

petunjuk suatu pekerjaan dan ini bisa

ditingkatkan nilainya, dipelajari dan juga bisa diajarkan kepada yang lain

(11)

Data – Informasi - Pengetahuan

Data Kehadiran Pegawai

NIP

NIP TGLTGL DATANGDATANG PULANGPULANG 1103 1103 02/12/200402/12/2004 07:2007:20 15:4015:40 1142 1142 02/12/200402/12/2004 07:4507:45 15:3315:33 1142 1142 02/12/200402/12/2004 07:4507:45 15:3315:33 1156 1156 02/12/200402/12/2004 07:5107:51 16:0016:00 1173 1173 02/12/200402/12/2004 08:0008:00 15:1515:15 1180 1180 02/12/200402/12/2004 07:0107:01 16:3116:31

(12)

Data – Informasi - Pengetahuan

Informasi Akumulasi Bulanan Kehadiran Pegawai

NIP

NIP MasukMasuk AlpaAlpa CutiCuti SakitSakit TelatTelat

1103 1103 2222 1142 1142 1818 22 22 1142 1142 1818 22 22 1156 1156 1010 11 1111 1173 1173 1212 55 55 1180 1180 1010 1212

(13)

Senin

Senin SelasaSelasa RabuRabu KamisKamis JumatJumat

Terlambat

Terlambat 77 00 11 00 55

Informasi Kondisi Kehadiran Mingguan Pegawai

Pulang Pulang Cepat Cepat 0 0 11 11 11 88 Izin Izin 33 00 00 11 44 Alpa Alpa 11 00 22 00 22

(14)

Pengetahuan apa yang diperoleh?

Pengetahuan tentang

kebiasaan

pegawai dalam jam datang/pulang

kerja

Pengetahuan tentang bagaimana teknik

meningkatkan kehadiran pegawai

(15)

• Kebijakan penataan jam kerja karyawan khusus untuk hari senin dan jumat

• Peraturan jam kerja:

– Hari Senin dimulai jam 10:00 – Hari Jumat diakhiri jam 14:00 – Hari Jumat diakhiri jam 14:00

– Sisa jam kerja dikompensasi ke hari lain:

1. Senin pulang setelah maghrib, toh jalanan jakarta macet total di sore hari (bayar hutang 2 jam)

2. Rabu dan kamis bayar hutang setengah jam di pagi hari dan setengah jam di sore hari (bayar hutang 2

(16)

Irisan bidang ilmu data mining

1. Statistik:

– Lebih bersifat teori

– Fokus ke pengujian hipotesis

2. Machine Learning:

– Lebih bersifat heuristik – Lebih bersifat heuristik

– Fokus pada perbaikan performansi dari suatu teknik learning

3. Data Mining:

– Gabungan teori dan heuristik

– Fokus pada seluruh proses penemuan knowledge dan pola – Termasuk data cleaning, learning dan visualisasi hasilnya

(17)

Mengapa Data minng

• Manusia dalam suatu organisasi, sadar atau tidak sadar telah memproduksi

berbagai data yang jumlahnya sangat besar

– Contoh data: bisnis, kedokteran, ekonomi, geografi, olahraga, …

geografi, olahraga, …

• Pada dasarnya, data adalah entitas yang

tidak memiliki arti, meskipun kemungkinan memiliki nilai di dalamnya

(18)

Faktor perlunya Data Mining

• Pertumbuhan data yang cepat

• Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses ke dalam DB yang handal

ke dalam DB yang handal

• Peningkatan akses data melalui web dan intranet

• Tekanan kompetisi bisnis • Ketersediaan teknologi

• Perkembangan komputasi yang sangat maju dan pesat dan kapasitas media simpan

(19)

Hal penting terkait data mining

• Proses otomatisasi terhadap data yang sudah ada

• Data yang akan diproses berupa data • Data yang akan diproses berupa data

yang sangat besar

• Tujuan data mining mendapatkan hubungan atau pola yang mungkin

(20)

Fungsi data mining

• Fungsi deskripsi (description) • Fungsi estimasi (estimation) • Fungsi prediksi (prediction)

Fungsi minor • Fungsi prediksi (prediction)

• Fungsi klasifikasi (classification)

• Fungsi pengelompokan (clustering) • Fungsi asosiasi (association)

(21)

Estimation

Prediction Association

Classification Clustering

(22)

Data mining-Deskripsi

• Sebagai kasus akan diberi suatu data nilai UAS matakuliah Datawarehouse kelas pagi dan malam

(23)

Data Mining-deskripsi (lanj)

• Ketika diberi kumpulan data kita sukar menangkap arti kumpulan data tersebut sehingga data harus “dirangkum”

sehingga data harus “dirangkum” sedemikian rupa agar “berbicara” sehingga kita memiliki gambaran mengenai kumpulan data tersebut

(24)

Data Mining-deskripsi (lanj)

• Diperlukan suatu cara untuk

menggambarkan sekumpulan data secara ringkas

secara ringkas • deskripsi

(25)

Data Mining-deskripsi (lanj)

• Terdapat beberapa cara untuk memberikan gambaran secara ringkas.

1. Deskripsi grafis mendeskripsikan data dalam bentuk gambar

dalam bentuk gambar a. diagram titik

b. histogram

2. Deskripsi lokasi memberikan informasi mengenai data pada posisi tempat tertentu

(26)

Data mining-deskripsi (lanj)

3. Deskripsi keberagaman

meski deskripsi lokasi sudah

memberikan gambaran tentang lokasi memberikan gambaran tentang lokasi pusat data (mean, median, modus) kita masih belum memiliki gambaran atas keberagaman data.

(27)

Data mining-deskripsi(lanj)

• Sebagai gambaran akan kita lihat studi kasus nilai UAS MK datawarehouse

• Nilai UAS terdiri dari 2 kelas yaitu kelas • Nilai UAS terdiri dari 2 kelas yaitu kelas

pagi dan malam

• Kelas pagi ditampilkan pada tabel berikut

(28)

(29)

Data mining-deskripsi(lanj)

• Mengapa kita perlu memproses data di atas?

• Apakah data di tabel tersebut memberikan arti bagi kita?

• Bagaimana kita mengetahui makna sekumpulan data di atas?

• Bagaimana bila data di atas berjumlah ribuan bahkan jutaan data?

(30)

Data mining-deskripsi grafis

• Mendeskripsikan data dalam bentuk visual

• ‘a picture paints a thousand words’ • Berupa diagram titik dan histogram • Berupa diagram titik dan histogram

(31)

Data mining-deskripsi grafis(lanj)

• Diagram titik

setiap data digambarkan sebagai sebuah titik (dot)

sebuah titik (dot)

Misal nilai kelas pagi digambarkan tiitik penuh sementara kelas malam

(32)

Data mining-deskripsi grafis(lanj)

• Diagram histogram

• Misalnya kita mempunyai data nilai UAS kelas pagi

(33)

Data mining-deskripsi grafis(lanj)

• Langkah pertama dalam membuat histogram adalah membuat beberapa interval dalam hal ini misalnya membuat interval sesuai dengan klasifikasi nilai klasifikasi nilai 80 – 100 = A 68 - 79.99 = B 67.99 – 56 = C 55.9 – 46 = D

(34)

Data mining-deskripsi grafis(lanj)

• Langkah kedua adalah menghitung

seberapa banyak data yang menjadi anggota tiap interval

anggota tiap interval

• Langkah ketiga, membuat histogram berdasarkan data di atas

(35)

(36)

Data mining-deskripsi grafis(lanj)

histogram berdasarkan interval nilai

2 .5 3 3 .5 4 4 .5 0 0 .5 1 1.5 2 2 .5 1 2 3 4 ju m la h f re k u e n s i S e r ie s 1

(37)

Data mining-deskripsi grafis(lanj)

• Pengetahuan apa yang diperoleh?

Dengan melihat batang-batang tersebut kita dapat melihat lokasi tersebut kita dapat melihat lokasi

kecenderungan mengumpulnya data dari batang tertinggi. Histogram yang menunjukkan data yang merata

(38)

Data mining-deskripsi lokasi

• Meskipun deskripsi grafis sudah

menggambarkan karakteristik data,

sifatnya masih terlalu kasar dan kurang sifatnya masih terlalu kasar dan kurang praktis untuk dilakukan. Kita

memerlukan angka yang cukup

mewakili data dan diperoleh secara praktis daripada grafis.

(39)

Data mining-deskripsi lokasi(lanj)

1. Rata-rata (Mean)

membuat menjadi rata. Rumus mean adalah jumlah semua data dibagi

adalah jumlah semua data dibagi dengan banyaknya data

(40)

Data mining-deskripsi lokasi(lanj)

• Melihat kasus nilai UAS

kelas PAGI dan MALAM maka bisa dilihat maka bisa dilihat masing-masing mean nilai UAS tersebut

(41)

Data mining-deskripsi lokasi(lanj)

• Rata-rata / mean

• Pengetahuan apa yang bisa diperoleh? • Pengetahuan apa yang bisa diperoleh? Dengan mudah bisa kita katakan bahwa

PADA UMUMNYA nilai kelas malam memiliki nilai 70.3 dan kelas pagi 66.33. Nilai rata-rata kelas malam lebih tinggi daripada kelas pagi. Mengapa?

(42)

Data mining-deskripsi lokasi(lanj)

• Median / nilai tengah

• Dengan median, kita mencari nilai “di tengah”. • Langkah pertama adalah mengurutkannya.

• Data asli: 85 65 55 75 65 55 55 70 70 60 65 80 95 75 85

• Data asli:

• Data urut: 55 55 55 60 65 65 65 70 70 75 75 80 85 85 95

• Karena data kita ganjil (15) maka nilai tengahnya adalah 70

• Bila banyaknya data genap maka pertengahan data dijumlahkan kemudian dibagi 2

(43)

Data mining-deskripsi lokasi(lanj)

• Pengetahuan apa yang dapat diperoleh? Bila kita mengurutkan data nilai dari yang

terendah sampai ke tertinggi maka ditengahnya adalah 70.

ditengahnya adalah 70.

Keuntungan menggunakan median adalah tidak terpengaruh nilai ekstrim. Bila

rata-rata/mean akan terpengaruh nilai ekstrim. Contohnya?

(44)

Data mining-deskripsi lokasi(lanj)

• Modus nilai yang paling banyak muncul.

• Data nilai : 55 55 55 60 65 65 65 70 70 75 75 80 85 85 95

• Nilai yang menjadi modus adalah 55 3x dan 65 3x

• Pengetahuan apa yang muncul? • Pengetahuan apa yang muncul?

Nilai mahasiswa UAS pagi banyak yang memperoleh 55 dan 65

Modus mencerminkan lokasi kecenderungan

berkumpulnya sebagian besar data dibanding yang lain.

(45)

Data mining-deskripsi lokasi(lanj)

• Contoh: sebuah perusahaan

menyatakan bahwa gaji rata-rata

perusahaan XYZ adalah Rp. 10 juta. Kenyataann 90 karyawan digaji Rp. 1 Juta, dan hanya 10 karyawan yang

digaji Rp. 100 juta. digaji Rp. 100 juta.

• Dibandingkan rata-rata, informasi yang lebih tidak menyesatkan dan berguna adalah bahwa sebagian besar / modus karyawan digaji sekitar Rp. 1 juta

(46)

Data mining-deskripsi lokasi(lanj)

• Kuartil : membagi seluruh data menjadi

empat bagian dan mencari nilai di tiap seperempat bagian/kuartil tersebut.

• 55 55 55 60 65 65 65 70 70 75 75 80 85 85 • 55 55 55 60 65 65 65 70 70 75 75 80 85 85

95

• Pengetahuan apa yang bisa diperoleh?

Bila kita mengurutkan data nilai UAS pagi kemudian urutan kita bagi empat maka akan diperoleh angka 55, 62.5, 70, 77.5, 95

(47)

Data mining-deskripsi lokasi(lanj)

• Persentil : pembagian data dengan 100

bagian

• 55 55 55 60 65 65 65 70 70 75 75 80 85 85 95

(48)

Data mining-deskripsi lokasi(lanj)

• Pengetahuan yang diperoleh:

Bila kita mengurutkan data nilai UAS kelas pagi dari yang terendah sampai tertinggi akan diperoleh angka tersebut

(49)

Data mining-deskripsi

keberagaman

• Deskripsi lokasi sudah memberikan gambaran tentang lokasi pusat data (rata-rata, modus, median) tetapi kita belum memiliki keberagaman data. belum memiliki keberagaman data. • Data I 6, 6, 7, 7, 7, 8, 8

mean = 7, median = 7, modus = 7 • Data II 0, 1, 3, 7, 7, 12,19

(50)

Data mining-deskripsi keberagaman

• Mean, median dan modus nya sama apakah data di atas sama?

• Data di atas tidak sama karena

persebarannya beda. Pada data I persebarannya beda. Pada data I

cenderung berkumpul di 7, sementara data II beragam dan menyebar.

• Tiga ukuran untuk melihat

keberagaman yaitu range, varians dan standar deviasi

(51)

Data mining-deskripsi keberagaman

1. Rentang

menyatakan besarnya rentang jarak antara data terkecil dengan data terbesar. Rentang yang besar menandakan bahwa data relatif beragam dan sebaliknya

Contoh:

• _{Data I 6, 6, 7, 7, 7, 8, 8} Data II 0, 1, 3, 7, 7, 12,19 range data I 8 – 6 = 2

(52)

Data mining-deskripsi keberagaman

• Pengetahuan apa yang kita peroleh? Kelompok data II memiliki data lebih

beragam dengan range yang lebar.

Tetapi karena ukuran yang diambil nilai Tetapi karena ukuran yang diambil nilai

min dan max maka kurang terlihat juga keberagaman data nya

(53)

Data mining-deskripsi keberagaman

Contoh 2: memodifikasi contoh 1 • Data I 6, 15, 15, 16, 16, 16, 25

Data II 0, 1, 3, 7, 7, 12,19 Data II 0, 1, 3, 7, 7, 12,19

Meski range nya sama, data I masih

relatif lebih seragam/kurang beragam dibanding data II

(54)

Data mining-deskripsi keberagaman

2. Varians dan standar deviasi

Range tidak dapat dijadikan pijakan yang kokoh untuk menilai keberagaman data. Oleh karena itu ukuran varians yang

Oleh karena itu ukuran varians yang menggunakan prinsip pencarian jarak antara setiap data dengan pusatnya (mean) sering digunakan.

(55)

Data mining-deskripsi keberagaman

• Setiap data observasi dikurangi dengan rata-rata seluruh data.

• Setiap hasl pengurangan dikuadratkan kemudian semuanya dijumlahkan. Hasil penjumlahan dibagi dengan (n-1),

penjumlahan dibagi dengan (n-1),

(56)

Data mining-deskripsi keberagaman

• Bila data I dan II di olah dengan varians

dan standar deviasi maka _{(Data ke n – mean)}2

Jumlah

(57)

Data mining-deskripsi keberagaman

• Berdasarkan varians nya Pengetahuan apa yang diperoleh?

Data pada kelompok II berjarak relatif Data pada kelompok II berjarak relatif lebih jauh dengan pusatnya (dalam hal ini rata-ratanya) sehingga variansinya lebih besar. Dengan kata lain data pada kelompok II lebih beragam dibanding

(58)

Data mining-deskripsi keberagaman

• Standar deviasinya adalah 5.5 dan 6.7 • Pengetahuan apakah yang bisa digali? Data pada kelompok II lebih beragam

(59)

penutup

• Kegunaan fungsi deskripsi

• Berbagai cara menjalankan fungsi deskripsi

deskripsi

• Ukuran yang digunakan dalam cara-cara deskripsi

(60)

(61)

Latihan

• Berikut adalah catatan temperatur tertinggi tiap jam dalam sebuah lemari pendingin:

4.2; 4.7; 4.7; 5.0; 3.8; 3.6; 3.0; 5.1; 3.1; 3.8; 4.8; 4.0; 5.2; 4.3; 2.8; 2.0; 2.8; 3.3; 4.8 dan 5.0

4.0; 5.2; 4.3; 2.8; 2.0; 2.8; 3.3; 4.8 dan 5.0

Gambar dan interpretasikan dengan histogram Hitung mean, median, modus

(62)

(63)

catatan

Dalam ilmu statistik standar deviasi digunakan untuk membandingkan penyebaran atau penyimpangan data dua kelompok atau lebih. Apabila standar deviasi suatu data tersebut kecil maka hal tersebut menunjukkan data-data tersebut berkumpul disekitar rata-rata hitungnya, dan jika standar deviasinya besar hal tersebut menunjukkan penyebaran yang besar dari nilai rata-rata hitungnya.

Salah satu penerapan standar deviasi ini misalnya dalam bidang ekonomi. Standar deviasi dapat digunakan untuk menghitung perbandingan pertumbuhan ekonomi deviasi dapat digunakan untuk menghitung perbandingan pertumbuhan ekonomi suatu negara, misalnya mengukur pertumbungan ekonomi negara-negara

ASEAN. Dalam kurun waktu lima tahun terakhir misalnya, standar deviasi

pertumbuhan ekonomi Negara Singapura adalah 0.55, Malaysia sebesar 0.87, Indonesia sebesar 1.03, dan Thailand sebesar 1.01.

Dari hasil penghitungan tersebut dapat diketahui dan dianalisis mengenai

pertumbuhan ekonomi Indonesia yang memiliki standar deviasi lebih besar dibanding 3 Negara ASEAN lainnya, hal ini mengindikasikan pertumbuhan

(64)

(65)

(66)