Pertemuan_8 Data Mining.pptx

(1)

(2)

• Hampir setiap perusahaan memiliki aplikasi

yang mencatat kegiatan transaksi harian ke

dalam database. Setelah beberapa waktu

berjalan, terkumpul ratusan ribu bahkan jutaan

data transaksi di dalam database.

• Data transaksi tersebut merupakan history

pasang surut perusahaan yang perlu diolah

menjadi sebuah informasi yang membantu

pihak

manajemen

mengambil

keputusan

strategis secara lebih akurat.

• Bagaimana informasi tersebut bisa didapatkan

dari hasil analisa data?

(3)

• Kuncinya adalah penarikan pola data dengan

mempelajari sampel data yang diberikan untuk

menjawab

kebutuhan

informasi

strategis

perusahaan.

(4)

(5)

• Merupakan istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database.

• Penggunaan teknik-teknik analisa data, matematika, kecerdasan tiruan dan machine learning untuk mengekstrak informasi yang berkaitan dan pengetahuan terkait dari berbagai database besar.

• Merupakan proses dari pola2 rancang bangun aturan, korelasi atau tren atau model prediksi

(6)

• Berasal dari database yang sangat besar, merupakan data beberapa tahun

• Berada dilingkungan arsitektur sistem client/server atau arsitektur berbasis web

• Perlu piranti visualisasi data yang canggih • Kadang-kadang perlu paralel processing

• Pengguna biasanya merupakan pengguna akhir yang tidak mempunyai skill programming

(7)

(8)

Penemuan Pengetahuan

Database_Database Database_Database

Database_Database

DATA MINING

Datawarehouse/Datamarts

DATA MINING _STRATEGI

(9)

• Data mining bekerja untuk menemukan pola-pola tertentu dalam data.

• Data mining cerdas menghasilkan informasi dari datawarehouse yang tidak dapat divisualisasikan oleh laporan-laporan dan query.

(10)

• Tiga motode yang digunakan untuk mengidentifikasi pola-pola data (Nemati dan Barko 2001)

 Model Sederhana (Query berbasis SQL, OLAP, Pertimbangan Manusia)

 Model Sedang (Regresi, pohon keputusan, clustering

 Model Kompleks(jaringan saraf, induksi aturan lain)

(11)

• Setelah mengetahui faedah data mining, kita perlu mengenali bentuk tugas dasar data mining dalam melakukan pengolahan data menjadi informasi. Pada hakekatnya, tugas dasar yang bisa dilakukan oleh data mining yaitu :

1. Klasifikasi 2. Regresi

3. Segmentasi 4. Asosiasi

5. Analisa urutan

(12)

• Bentuk tugas dasar ini adalah dengan menentukan pengelompokan informasi akhir yang hendak didapatkan. Misalnya klasifikasi customer yang berpotensi memiliki kredit macet dan kredit lancar.

• Biasanya di dalam sumber data terdapat atribut yang menjadi tujuan klasifikasi. Atribut tujuan biasanya merupakan kolom dari sebuah tabel atau dimensi di dalam Analysis Service. Kemudian klasifikasi membutuhkan juga atribut-atribut lain yang memiliki pengaruh signifikan terhadap atribut tujuan.

(13)

• Saya sebut atribut demikian sebagai atribut pendukung. Dalam contoh kredit macet/lancar, atribut-atribut pendukung (yang tentu saja terdapat di dalam database) adalah tanggal pelunasan setiap periode, tanggal jatuh tempo tiap periode, lama kredit yang diberikan, besar kredit yang diberikan, besar bunga kredit, besar aset yang diagunkan dan indikator-indikator lainnya.

• Dengan data-data yang tersedia, data mining dapat memberikan petunjuk kepada pengguna data mining apakah sebaiknya mencucurkan kredit kepada seorang customer.

(14)

• Kelihatannya sederhana, namun dengan jumlah data yang besar dan jumlah atribut pendukung yang banyak, klasifikasi secara manual menjadi tidak mudah dibandingkan pengolahan secara efisien dan akurat oleh data mining SQL Server.

(15)

• Jenis tugas dasar ini hampir sama dengan jenis tugas dasar klasifikasi. Perbedaan antara keduanya adalah regresi memberikan hasil yang tidak terbatas sedangkan klasifikasi memberikan hasil yang diskrit (terbatas kemungkinan yang ada – ingat contoh customer berpotensi kredit macet atau kredit lancar? Berarti ada 2 jenis kemungkinan dari hasil probabilitas).

(16)

• Contoh dari regresi adalah kebutuhan perusahaan untuk melakukan estimasi nilai sales pada tahun depan berdasarkan analisa trend sales tahun-tahun sebelumnya.

• Katakanlah nilai tahun lalu sebesar 100 juta rupiah, tahun ini sebesar 120 juta rupiah, mungkin hasilnya bisa naik atau bisa turun. Kemungkinan hasil probablitas tidak terbatas hanya 100 juta ataupun 200 juta rupiah.

(17)

• Segmentasi adalah bentuk tugas dasar data mining yang memilah data-data ke dalam beberapa kelompok. Masing-masing kelompok memiliki karakteristik atribut yang sama.

• Contoh segmentasi adalah analisa pendekatan calon klien oleh sebuah perusahaan jasa untuk aktivitas sales dan marketing.

• Calon klien adalah dipilah berdasarkan 3 kelompok klien yaitu klien kecil dengan jumlah karyawan kurang dari 100 orang, klien menengah dengan jumlah karyawan 101 sampai dengan 500 dan klien berskala besar dengan jumlah karyawan di atas 500.

(18)

• Masing-masing kelompok memiliki rentang penghasilan perusahaan yang serupa, cakupan kebutuhan yang serupa, dan lain sebagainya.

• SQL Server 2008 akan membantu memilihkan atribut yang menjadi segmentasi setelah menganalisa data yang ada.

(19)

• Asosiasi adalah bentuk tugas dasar yang mencari keterkaitan antara satu item dengan item lainnya pada atribut yang sama, sehingga asosiasi dapat juga disebut keterkaitan.

• Item-item yang terkait satu sama lain dapat dipandang sebagai satu kesatuan unit.

(20)

• Contoh asosiasi adalah apabila seorang customer membeli buku SQL Server Analysis Service 2008 kemungkinan besar dia juga akan memerlukan buku SQL Server Reporting Services 2008 sehingga dengan mengetahui keterkaitan antara keduanya; seorang sales dapat menawarkan buku Reporting Services tersebut kepada customer.

• Keterkaitan tidak selalu melibatkan 2 item, sangat mungkin keterkaitan melibatkan lebih dari 2 item, sebagai contoh bila item A dan item B merupakan satu kesatuan unit, probabilitas yang besar terjadi bila item C juga masuk ke dalam kesatuan unit tersebut karena item A, B dan C memiliki keterkaitan satu dengan lainnya.

(21)

• Sequence analysis akan menampilkan pola persinggahan data dari satu node ke node lainnya. Contoh yang paling menggambarkan teknik sequence analysis adalah pola navigasi user pada sebuah website dimana setelah user mengakses web page A, lebih besar probabilitas user akan mengunjungi web page B ketimbang web page C.

• Agar data mining dapat memprediksi pola akses berbasis sequence analysis, diperlukan data-data lampau untuk dipelajari pola akses untuk sequence analysis.

(22)

Kelasifikasi: definisi

-

Diberikan kumpulan rekod (training set)

setiap rekod mengandung sekumpulan atribut, salah

satu atribut adalah kelas

-

Temukan model untuk kelas atribut sebagai fungsi

dari atribut lainnya

-

Goal : rekod yang tak terlihat sebelumnya harus

menentukan suatu kelas seakurat mungkin untuk

- himpunan uji dipakai untuk menentukan

keakuratan model. Biasanya set data yang diketahui

dibagi menjadi training set dan test set, dengan

(23)

Kelasifikasi : Aplikasi

-Pemasaran langsung

- Goal : mengurangi biaya pengiriman dengan mentargetkan himpunan pelanggan yang mungkin membei produk HP

- Pendekatan

- gunakan data untuk produk sama yang dikeluarkan sebelumnya

- dapat diperoleh pelanggan mana memutuskan untuk membeli dan mana yang tidak. Keputusan

{beli, tak beli} ini membentuk kelas atribut

- kumpulkan berbagai informasi terkait demografi, cara hidup dan interaksi perusahaan tentang semua pelanggan demikian

- tipe bisnis, dimana mereka tinggal, penghasilan mereka, dll

(24)

Pengelompokan : definisi

• _{Diberikan set data, setiaonya memiliki set atribut, dan}

ukuran sama diantaranya, tentukan kelumpok (cluster) sedemikian hingga

- Titik data dalam satu kelompok mirip satu dengan yang lain

- Titik data dalam kelompok terpisah kurang mirip satu dengan yang lain

Ukuran kemiripan

- Jarak Euclid jika atribut kontinu

(25)

Pengelompokan : Aplikasi

• _{Segmentasi pasar.}

- Goal: partisi pasar menjadi subset pelanggan berbeda di mana setiap subset dapat terpilih sebagai target pasar yang dicapai dengan mix marketing berbeda.

- Pendekatan :

• Kumpulkan atribut berbeda pelanggan yang didasarkan pada informasi geografis dan pola hidup • Tentukan kelompok dari pelanggan yang sama

(26)

Penemuan Aturan Asosiasi

• _{Diberikan set rekod yang}

setiapnya mengandung beberapa item dari suatu kumpulan yang diketahui

3 Beer, Coke, Diaper, Susu

4 Beer, Roti, Diaper, Susu

5 Coke, Diaper, Susu

(27)

Penemuan aturan asosiasi : Aplikasi

• _{Pemasaran dan Promosi penjualan}

- Andaikan aturan yang ditemukan {Kacang,…}  {Chip Kentang}

- Chip Kentang sebagai konsekuen  dapat dipakai untuk menentukan apa yang harus dilakukan untuk meningkatkan penjualannya

- Kacang sebagai anteseden  dapat dipakai untuk melihat produk mana terpengaruh jika toko

menghentikan penjualan kacang

(28)

Penemuan aturan asosiasi: aplikasi

• _{Supermarket shelf management}

- Goal : Mengidentifikasi item yang dibeli bersama-sama oleh cukup banyak pelanggan

- Pendekatan : Proses data penjualan yang dikumpulkan dengan barcode scanner untuk menemukan

ketergantungan antara item - Aturan klasik

• Jika seorang pelanggan membeli diaper dan susu, maka ia sangat mungkin beli beer.

(29)

Penemuan pola sekuensial: definisi

• _{Diberikan set objek, dengan setiap objek dikaitkan}

dengan jalur kejadiannya, tentukan atyran yang

memprediksi ketergantungan sikuensial kuat antara kejadian berbeda.

(30)

Penemuan pola sikuensial: aplikasi

• _{Dalam sikeun transaksi penjualan}

- Toko buku Komputer

(Intro_to-Visual_C) (C++_Primer) 

(Perl_for_dummies,Object_Oriented)

- Toko Sport

(31)

Regresi

• _{Memprediksi suatu nilai variabel bernilai kontinu yang}

diketahui berdasarkan pada nilai variabel lainnya,

dengan mengandaikan model ketergantungan linier atau tak linier.

• _{Dipelajari di Statistika, Jaringan syaraf.} • _{Contoh :}

- Memprediksi jumlah penjualan produk baru yang didasarkan pada biaya pemasaran

- Memprediksi kecepatan angin sebagai fungsi dari temperatur, kelembapan, tekanan udara,dll

(32)