• Tidak ada hasil yang ditemukan

IntroduksiData Mining S1 Teknik Informatika Fakultas Teknologi Informasi Universitas Kristen Maranatha

N/A
N/A
Protected

Academic year: 2021

Membagikan "IntroduksiData Mining S1 Teknik Informatika Fakultas Teknologi Informasi Universitas Kristen Maranatha"

Copied!
16
0
0

Teks penuh

(1)

Introduksi Data Mining

S1 Teknik Informatika Fakultas Teknologi Informasi Universitas Kristen Maranatha 1

Agenda

Pendahuluan

Definisi Data Mining

Langkah – langkah Data Mining

Tugas – tugas Data Mining

Data untuk Data Mining

(2)

Pendahuluan

Ukuran DB yang sangat besar :

• Terabytes -> Petabytes

Koleksi data & ketersediaan data :

• Database system, web, e-commerce, remote sensing, news, bioinformatics, etc.

Komputer semakin powerful

=>

Data Mining

3

Mining Data Set yang Besar - Motivasi

• Sering terdapat informasi “tersembunyi” di dalam data yang

tidak langsung terlihat

• Analis manusia mungkin membutuhkan berminggu – minggu

untuk menemukan informasi yang berguna

• Banyak dari data yang tidak pernah dianalisa sama sekali

DM-MA/S1IF/FTI/UKM/2010 4 0 500,000 1,000,000 1,500,000 2,000,000 2,500,000 3,000,000 3,500,000 4,000,000 1995 1996 1997 1998 1999

The Data Gap

Total new disk (TB) since 1995

Number of analysts From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”

(3)

Definisi Data Mining (1/3)

• “Data mining adalah bidang ilmu antar disiplin

yang menggabungkan teknik – teknik dari

pembelajaran mesin, pengenalan pola, statistika, basis data, dan visualisasi untuk menangani isu dari ekstrasi informasi dari basis data yang besar”

Evangelos Simoudis in Cabena et al.

• “Data mining adalah ekstrasi dari informasi dari

data yang implisit, tidak diketahui sebelumnya, dan secara potensial berguna”

Witten & Frank

5

Definisi Data Mining (2/3)

• “Data mining .... adalah eksplorasi dan analisis,

dengan cara otomatis dan semi otomatis, dari data yang berjumlah besar untuk menemukan pola – pola atau aturan – aturan yang berguna”

Berry & Linoff

• “Data mining adalah terminologi yang biasanya

diterapkan untuk teknik – teknik yang dapat dipergunakan untuk menemukan struktur dan hubungan- hubungan yang tersembunyi dari data yang besar”

(4)

Definisi Data Mining (3/3)

• “Secara sederhana, data mining dipergunakan

untuk menemukan pola – pola dan hubungan – hubungan dari data anda untuk membantu dalam membuat keputusan bisnis yang lebih baik”

Herb Edelstein, Two Crows

7

(5)

Langkah – langkah Analitis Data

Mining

Menjelaskan data

• Atribut statistik (mean & standar deviasi) • hubungan antar variabel

Membangun model prediktif

Menguji model

Memverifikasi model

9

Data mining & data warehouse

Biasanya, data yang akan ‘ditambang’ diambil dari

data warehouse, kemudian masuk ke data mining

database atau data mart

(6)

Tugas – Tugas Data Mining

Metode – metode prediksi

• Menggunakan beberapa variabel untuk memprediksi nilai – nilai yang tidak diketahui atau masa yang akan datang dari variabel yang lainnya.

Metode – metode deskripsi

• Menemukan pola – pola yang dapat diinterpretasikan

oleh manusia dari data

11

From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

Tugas – Tugas Data Mining

Klasifikasi [prediktif]

Segmentasi/Klastering [deskriptif]

Asosiasi [deskriptif]

Peramalan [prediktif]

Text Mining

12

(7)

Klasifikasi

Jenis keanggotaan apa yang perlu saya tawarkan?

Konsumen mana yang akan merespon surat saya?

Apakah transaksi ini palsu?

Apakah saya kehilangan konsumen ini?

Apakah produknya defektif?

Kesehatan pasien yang mana yang menurun?

13

Klasifikasi

Diberikan sebuah koleksi dari rekaman (

training set

)

• Setiap rekaman terdiri dari sebuah set atribut, salah satu dari atribut adalah class.

Menemukan sebuah

model

dari atribut

class

sebagai

sebuah fungsi nilai – nilai dari atribut – atribut yang

lainnya.

Tujuan: rekaman – rekaman yang sebelumnya tidak

diketahui akan diberikan sebuah class seakurat mungkin

• Sebuah set tes dipergunakan untuk menentukan akurasi dari model. Biasanya data set yang diberikan akan dibagi menjadi set traning dan set tes, dengan set training dipergunakan untuk membangun model dan set tes dipergunakan untuk

(8)

Contoh Klasifikasi

15

Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 Refund Marital Status Taxable Income Cheat No Single 75K ? Yes Married 50K ? No Married 150K ? Yes Divorced 90K ? No Single 40K ? No Married 80K ? 10 Test Set Training Set Model Learn Classifier

Klasifikasi: Aplikasi

Pemasaran Langsung:

• Tujuan: mengurangi biaya surat dengan mentargetkanke kelompok konsumen yang kemungkinan besar akan membeli produk handphone yang baru.

• Pendekatan:

• Menggunakan data dari produk serupa yang diperkenalkan sebelumnya.

• Kita mengetahui konsumen mana yang membeli dan yang tidak. Keputusan [buy, don’t buy] ini membentuk atribut class.

• Mengumpulkan berbagai macam informasi demografi, gaya hidup, dan iteraksi perusahaan tentang konsumen tersebut.

• Tipe bisnis, dimana mereka tinggal, penghasilan mereka, dll • Memakai informasi ini sebagai atribut masukan untuk dipelajari

oleh model pengklasifikasi.

16

(9)

Segmentasi/Klastering

Mendeskripsikan konsumen saya

Bagaimana cara saya bisa membedakan

konsumen?

Bagaimana saya dapat mengorganisasi data

saya yang dapat dimengerti?

Apakah rekaman ini

outlier

?

17

Definisi Klastering

Diberikan sebuat set dari poin data, masing – masing

memiliki sebuah set dari atribut, dan sebuah ukuran

kesamaan diantara mereka, temukan klaster – klaster

yang

• Poin – poin data dari satu klaster lebih sama satu dengan

yang lain.

• Poin – poin data dari klaster yang terpisah kurang sama satu dengan yang lain.

Pengukuran kesamaan

• Euclidian Distance bila atribut – atributnya berkelanjutan

(continuous)

(10)

Illustrating Klastering

19 ⌧Euclidean Distance Based Clustering in 3-D space.

Jarak intra klaster diminimalkan Jarak intra klaster

diminimalkan

Jarak inter klaster dimaksimalkan Jarak inter klaster

dimaksimalkan

Klastering: Aplikasi

Klastering Dokumen:

• Tujuan: untuk menemukan kelompok – kelompok

dokumen yang sama satu dengan yang lain berdasarkan terminologi penting yang muncul di dalamnya.

• Pendekatan: mengidentifkasi frekuensi kemunculan terminologi dari setiap dokumen. Menemukan pengukuran kesamaan berdasarkan frekuensi dari terminlogi yang berbeda. Pergunakan untuk pengklasteran.

• Manfaat: Information Retrieval dapat menggunakan klastering untuk menghubungkan dokumen baru atau terminologi pencarian dari dokumen – dokumen yang telah diklaster.

(11)

Ilustrasi Klastering Dokumen

• Poin klastering: 3204 artikel dari Los Angeles Times.

• Pengukuran kesamaan: berapa kata – kata yang serupa di dokumen – dokumen ini (setelah melalui penyaringan kata)

21 Category Total Articles Correctly Placed Financial 555 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278

Penemuan Aturan Asosiasi

Diberikan sebuah set rekaman yang masing –

masing terdiri dari beberapa item dalam

sebuah koleksi.

• Berikan aturan dependensi yang akan memprediksi kemunculan dari sebuah item berdasarkan kemunculan dari item yang lainnya.

TID Items

1 Bread, Coke, Milk 2 Beer, Bread

3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk

Aturan yang ditemukan:

{Milk} --> {Coke}

{Diaper, Milk} --> {Beer}

Aturan yang ditemukan:

{Milk} --> {Coke}

(12)

Penemuan Aturan Asosiasi:

Aplikasi

Promosi marketing dan sales:

• Jika aturan yang ditemukan adalah:

{Bagels, … } --> {Potato Chips}

• Potato Chips sebagai consequent=> dapat digunakan untuk menentukan apa yang harus dilakukan untuk meningkatkan penjualan.

• Bagels dalam antecedent=> dapat digunakan untuk melihat produk mana saja yang akan terpengaruh jika toko berhenti menjual bagels.

• Bagels dalam antecedent dan Potato chips dalam consequent

=> dapat digunakan untuk melihat produk mana yang harus dijual bersama dengan bagel untuk mempromosikan penjualan potato chips!

23

Peramalan

Berapakah revenue yang diproyeksikan untuk

semua produk?

Berapakah tingkat inventory untuk bulan

berikutnya?

(13)

Regresi

Memprediksi sebuah nilai dari variabel bernilai continuous

berdasarkan nilai – nilai dari variabel yang lain,

diasumsikan dalam model dependensi yang linier atau

non-linier.

Dipelajari secara intensif di statistika, jaringan syaraf

tiruan.

Contoh:

• Memprediksi nilai penjualan dari produk baru berdasarkan pengeluaran iklan.

• Memprediksi kecepatan angin sebagai fungsi dari temperatur, kelembaban, tekanan angin, dll

• Predisi berdasarkan waktu dari indeks – indeks pasar saham.

25

Text Mining

• Analisis dari data yang tidak terstruktur

• Menemukan terminologi – terminologi kunci dalam teks

• Konversi menjadi data terstruktur

• Dimasukkan dalam algoritma • Klasifikasi

• Segmentasi • Asosiasi

• Bagaimana cara menangani data call center?

• Bagaimana cara mengklasifikasi surat?

• Apa yang bisa saya perbuat dengan feedback dari web?

(14)

Eksplorasi Data Tingkat Lanjut

Analisis deskriptif

Mempelajari data lebih lanjut dengan visualisasi

Pertanyaan bisnis yang umum:

• Mengapa orang kembali datang?

• Apakah hubungan antara produk – produk?

• Apakah perbedaan antara konsumen yang profit tinggi dan profit rendah?

27

Data untuk Data Mining

Pada prinsipnya, di segala macam information

repository, bisa dilakukan data mining.

Relational DB

Data warehouse

Transactional DB

Advanced DB system

Flat files

WWW

28

(15)

Data Mining dalam Bisnis

Market segmentation

• Mengidentifikasi karakteristik umum customer yang

membeli barang yang sama

Customer churn

• Memprediksi customer mana yang kira-kira dapat pindah ke perusahaan kompetitor

Fraud detection

• Mengidentifikasi transaksi mana yang kira-kira berpotensi menjadi fraud

29

Data Mining dalam Bisnis

Direct marketing

• Mengidentifikasi prospect yang harus dimasukkan dalam mailing list agar tercapai response rate yang lebih tinggi.

Interactive marketing

• Memprediksi hal yang paling disukai ketika seseorang

mengunjungi sebuah web site

Market basket analysis

• Memahami produk mana yang diakses bersamaan (dlm 1 keranjang); mis. Popok dan bir

(16)

Data Mining dalam Bisnis

Prediksi otomatis dari tren dan kebiasaan:

• Data mining mengotomasi proses penemuan predictive

information pada large database. • Target marketing

• Memprediksikan kebangkrutan

• Mengidentifikasi segment yang mungkin merespon ke event tertentu

31

Data Mining dalam Bisnis

Penemuan otomatis dari pola – pola yang

sebelumnya tidak diketahui

• Data mining tools mencari di database dan

mengidentifikasi pola yang sebelumya tersembunyi.

• Mengidentifikasi produk yang tidak berelasi tapi yang seringkali dibeli bersamaan.

• Popok dan bir

• Mendeteksi fraud dalam transaksi kartu kredit

Gambar

Ilustrasi Klastering Dokumen

Referensi

Dokumen terkait

Krayan, dimana perusahaan saudara termasuk telah dinyatakan lulus evaluasi administrasi, teknis dan harga, maka dengan ini kami mengundang saudara untuk hadir

Terdapat perbedaan secara nyata dari penambahan bayam terhadap daya terima (rasa, warna, aroma dan tekstur), Hasil uji Friedman bahwa nugget kaki naga lele yang

Analisis data dan pengujian hipotesis dalam penelitian ini akan dilakukan dengan menggunakan model regresi linier berganda, dimana dalam analisis regresi tersebut akan menguji

Sehubungan dengan tidak adanya calon pemenang yang lulus pembuktian kualifikasi pada pelaksanaan pengadaan pekerjaan Pembangunan Pembangkit Listrik Surya (PLTS) Terpusat di

Sehubungan dengan penawaran yang masuk kurang dari 3 (tiga) pada pelaksanaan pengadaan pekerjaan Pembangunan Pembangkit Listrik Tenaga (PLT) Hybrid Surya dan Angin Di

Dari data-data percobaan yang telah dilakukan dalam penelitian pengeringan kelopak bunga Rosela ini dapat diambil kesimpulan bahwa suhu 80 0 C merupakan suhu yang efektif

  Keywords: Media Komunikasi Pemasaran 

Pemanfaatan energi angin mempunyai harapan besar dengan listrik yang dihasilkan mampu mengalirkan listrik yang digunakan untuk pembuatan es batu