• Tidak ada hasil yang ditemukan

Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)

N/A
N/A
Protected

Academic year: 2021

Membagikan "Tahapan Proses KDD (Peter Cabena) Business Objective Determination (#1) Business Objective Determination (#2) Business Objective Determination (#4)"

Copied!
5
0
0

Teks penuh

(1)

Knowledge Discovery

in Databases (IS704)

dan Data Mining

(CS704)

Kuliah #2

Gunawan

Jurusan Teknik Informatika Sekolah Tinggi Teknik Surabaya

12 August 2004 Gunawan, Teknik Informatika STTS 2

Tahapan Proses KDD

(Peter Cabena)

Š Penentuan Sasaran Bisnis (Business Objective Determination)

Š Persiapan Data (Data Preparation) –Data Selection –Data Preprocessing –Data Transformation Š Data Mining Š Analysis of Results Š Assimilation of Knowledge

12 August 2004 Gunawan, Teknik Informatika STTS 3

Business Objective

Determination (#1)

Š Mendefinisikan permasalahan atau tantangan bisnis dengan jelas. Hal ini merupakan aspek yang sangat esensial dalam setiap proyek data mining.

Š (Oleh beberapa peneliti KDD lainnya -- bahkan yang terkenal -- tahapan ini cenderung diabaikan! dan jarang disebut)

Š Jika tanpa sasaran bisnis yang jelas, orang berkata: "Here is the data, please mine it.". Tetapi jika mining dilakukan dan pengetahuan diperoleh, bagaimana dapat diketahui bahwa solusi tersebut benar-benar dibutuhkan?

12 August 2004 Gunawan, Teknik Informatika STTS 4

Business Objective

Determination (#2)

Š Contoh sasaran bisnis:

Mengembangkan suatu strategi marketing untuk mempertahankan loyalitas customer di Jawa Tengah dan Jawa Timur untuk produk soft drink dengan brand dan ukuran tertentu (200ml dalam kotak alumunium) selama bulan Nopember, Desember dan Januari yang akan datang. Perusahaan akan menggunakan kombinasi dari berbagai strategi marketing (mixed marketing), yang salah satunya adalah direct mail campaign kepada customer yang tampaknya "mudah rusak" loyalitasnya.

Business Objective

Determination (#3)

Š Pertanyaan kuncinya:

Rumah mana yang akan dikirimi surat supaya usaha ini berhasil?

Business Objective

Determination (#4)

Š Dampak pada keseluruhan proses KDD: –Data Selection: dipilih customers yang membeli

produk soft drink 200 ml dalam kotak alumunium di Jawa Tengah dan Jawa Timur.

Data Transformation: customers yang membeli

produk soft drink 200 ml dalam kotak alumunium disorting dalam 10 kategori, yang masing-masing membedakan tingkat loyalitasnya: membeli produk tersebut 0-10%, 11-20%, ... , 81-90%, 91-100% sepanjang waktu pembeliannya. Selanjutnya data inilah yang akan dibawa ke tahap data mining.

(2)

12 August 2004 Gunawan, Teknik Informatika STTS 7

Data Preparation (#1)

Š Mempersiapkan data yang diperlukan

untuk proses data mining.

Š Tujuannya:

–agar data yang digunakan benar-benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebenarannya, dan dalam format yang sesuai/tepat.

12 August 2004 Gunawan, Teknik Informatika STTS 8

Data Preparation (#2)

Š Tahap yang paling banyak mengkonsumsi

resources (manusia, biaya, waktu) yang

tersedia. Biasanya mencapai 60%

keseluruhan proyek KDD.

Š Menurut Cabena: Secara berurutan untuk 5

fase Cabena membutuhkan: 20% (fase 1)

+ 60% (fase 2)+ 10% (fase 3) + 10%

(untuk kedua fase 4 dan 5).

12 August 2004 Gunawan, Teknik Informatika STTS 9

Data Preparation (#3)

12 August 2004 Gunawan, Teknik Informatika STTS 10

Data Preparation (#4)

Š Data Selection

–Mengidentifikasi semua sumber informasi internal dan eksternal dan memilih sebagian saja dari data yang diperlukan untuk aplikasi data mining.

12 August 2004 Gunawan, Teknik Informatika STTS 11

Data Preparation (#5)

Š Data Preprocessing

–Meyakinkan kualitas dari data yang telah dipilih pada tahapan sebelumnya.

–2 issue yang paling sering dihadapkan pada tahap ini:

• Noisy Data • Missing Values

12 August 2004 Gunawan, Teknik Informatika STTS 12

Data Preparation (#6)

Š Data Transformation (#1)

–Mengubah data ke dalam model analitis. –Memodelkan data agar sesuai dengan analisa

yang diharapkan dan format data yang diperlukan oleh algoritma data mining.

(3)

12 August 2004 Gunawan, Teknik Informatika STTS 13

Data Preparation (#7)

Š Data Transformation (#2)

–Perlu diperhatikan terlebih dahulu 2 tipe utama data yang digunakan:

Categorical: semua nilai yang mungkin ada, bersifat

terbatas

• nominal: tanpa urutan, seperti status perkawinan (single, kawin, duda/janda, unknown) atau jenis kelamin (laki-laki, perempuan)

• ordinal: dengan urutan, seperti rating loyalitas customer (sangat baik, baik, cukup, kurang atau vulnerable atau mudah dirusak loyalitasnya).

12 August 2004 Gunawan, Teknik Informatika STTS 14

Data Preparation (#8)

Š Data Transformation (#3)

Quantitative: semua nilai yang mungkin

dapat diukur perbedaannya

• continuous (nilai-nilai bilangan real): gaji bulanan, rata-rata transaksi dalam satu periode waktu (bulan, kuartal atau tahun).

• discrete (nilai-nilai bilangan bulat): seperti jumlah pegawai, jumlah transaksi dalam satu periode waktu.

12 August 2004 Gunawan, Teknik Informatika STTS 15

Data Preparation (#9)

Š Data Transformation (#4) –Contoh

• Discretization: Pendapatan sampai Rp. 500.000,-- dikodekan 1, Rp. 500.000 s.d. 1 juta dikodekan 2 dan seterusnya. • Normalization: Jika proses data mining menggunakan ANN,

karena sebagian besar ANN hanya menerima input dalam range 0 s.d. 1 (binary) atau -1 s.d. +1 (bipolar), maka parameter continuous yang di luar range tersebut harus dinormalisasi.

12 August 2004 Gunawan, Teknik Informatika STTS 16

Data Mining (#1)

Š Melakukan proses pencarian pengetahuan terhadap data yang ditransformasikan pada tahap sebelumnya.

Š Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink“:

–IF soft drink sejenis dengan ukuran yang lebih besar (bukan botol kecil) dibeli dalam lebih dari 58% sejarah pembelian soft drink seorang consumer THEN consumer tersebut diprediksi Loyal.

Data Mining (#2)

Š Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink“:

–IF seorang consumer cenderung lebih banyak membeli soft drink merk "X" THEN consumer tersebut diprediksi Mudah Rusak Loyalitasnya.

–IF lebih dari 11% sejarah pembelian soft drink seorang consumer dilakukan pada sebuah gudang rabat / pusat grosir THEN consumer tersebut diprediksi Mudah Rusak Loyalitasnya. –IF dihitung secara rata-rata seorang consumer ternyata membeli

lebih dari 345,67ml setiap kali belanja AND dengan harga rata-rata soft drink per 100ml >= Rp. 550,-- THEN consumer tersebut diprediksi Loyal.

Analysis of Results

Š Menginterpretasikan dan mengevaluasi

output dari tahap mining: patterns.

Pendekatan analisa yang digunakan akan

bervariasi menurut operasi data mining

yang digunakan, tetapi biasanya akan

melibatkan teknik visualisasi.

(4)

12 August 2004 Gunawan, Teknik Informatika STTS 19

Assimilation of Knowledge

Š Menggunakan hasil mining yang telah

dievaluasi ke dalam perilaku organisasi

dan sistem informasi perusahaan.

12 August 2004 Gunawan, Teknik Informatika STTS 20

Tahapan Proses KDD

(Daniel L. Silver)

Š Data Consolidation (and Cleansing).

Š Data Selection and Preprocessing.

Š Data Mining.

Š Interpretation and Evaluation.

12 August 2004 Gunawan, Teknik Informatika STTS 21

Data Consolidation (and

Cleansing)

Š Filosofi: “Garbage In Garbage Out”

Š Menyita 50%-70% upaya dari keseluruhan proses KDD.

Š Termasuk di dalamnya adalah "remove outlier". Š Data consolidation menunjuk pada proses data

warehousing, termasuk pemilihan warehouse repository (OLTP database, ORDBMS, Multidimensional DBMS/Data Cube, Deductive Database, flat files yang compatible pada berbagai DM tools).

12 August 2004 Gunawan, Teknik Informatika STTS 22

Data Selection and

Preprocessing

Š OLAP dan visualization tools memegang

peranan penting.

Š transformation data yang disebut penulis

lain pada tahap ini, khususnya pada

pengurangan dimensionality.

Š Encoding data ke format yang dikenali DM

tools.

12 August 2004 Gunawan, Teknik Informatika STTS 23

Data Mining

Š Metode DM yang dipakai dibagi menjadi 3 kategori:

Automated Exploration / Discovery: Clustering misalnya, dapat

dipakai untuk mendapatkan segmentasi pasar baru dari suatu produk.

Prediction / Classification: Belajar suatu model predictive.

ANN, GA, Regression dapat dipakai untuk peramalan nilai penjualan.

Explaination / Description: Fungsi menjelaskan atau

mendeskripsikan. Induksi Decision Tree dan Ekstraksi Rule dapat digunakan untuk menjelaskan perilaku customer berdasar demographic dan sejarah pembeliannya.

12 August 2004 Gunawan, Teknik Informatika STTS 24

Interpretation and Evaluation

Š Evaluasi: dilakukan secara validasi statistik dan pengujian signifikan-nya; dilakukan review secara kualitatif hasil mining oleh pakar di bidangnya.

Š Interpretasi: Decision tree dan rule dapat dibaca langsung; Clustering harus digambarkan dan ditabelkan.

Š Pemakaian visualization tools: analisis sensitif; histogram untuk distribusi nilai; animasi dan plotting time-series.

(5)

12 August 2004 Gunawan, Teknik Informatika STTS 25

Tahapan Proses KDD (Jia

Weihan) #1

Š Data cleaning Š Data integration Š Data selection Š Data transformation Š Data mining Š Pattern Evaluation Š Knowledge Presentation

12 August 2004 Gunawan, Teknik Informatika STTS 26

Tahapan Proses KDD (Jia

Weihan) #2

Š Data Cleaning: menghilangkan noise dan

data yang inkonsisten.

Š Data Integration: menggabungkan

berbagai macam sumber data.

Š Data Selection: memilih data yang relevan

(dari database) dengan "analysis task".

• "analysis task" = Business Objective Determination (Cabena).

12 August 2004 Gunawan, Teknik Informatika STTS 27

Tahapan Proses KDD (Jia

Weihan) #3

Š Data Transformation: transformasi atau konsolidasi data ke dalam bentuk yang lebih baik untuk mining, dengan mewujudkan operasi-operasi summary dan aggregation (misal: daily data ---> monthly ---> quarterly ---> annual).

–khususnya pada beberapa kasus data warehousing, data transformation dilakukan sebelum data selection. Š Data Mining: mengekstrak patterns dari data

dengan menerapkan "intelligent methods".

12 August 2004 Gunawan, Teknik Informatika STTS 28

Tahapan Proses KDD (Jia

Weihan) #4

Š Pattern Evaluation: mengidentifikasi sejumlah pola yang sungguh-sungguh menarik dan bakal menjadi pengetahuan berdasarkan sejumlah pengukuran ketertarikan (interestingness

measures) seperti rule support dan rule

confidence untuk rule extraction.

Š Knowledge Presentation: penggunaan teknik-teknik visualisasi dan representasi untuk menyajikan pengetahuan yang telah diperoleh kepada user.

Referensi

Dokumen terkait

Dengan penuh rasa hormat penulis menyampaikan rasa terima kasih yang sebesar-besarnya kepada Ibunda Syafrida Lubis dan Ayahanda Asmadi serta Suami tercinta Irja

Setelah pembelajaran berakhir peneliti menganalisis keberhasilan dan kekurangan pada pembelajaran siklus I dengan menggunakan model pembelajaran discovery learning

Setelah menyimak video kegiatan manusia yang menggunakan energi dalam kegiatan sehari-hari, siswa dapat menjelaskan tujuan penggunaan energi dengan benar.. Setalah menyimak

Sehubungan dengan telah dilakukan evaluasi penawaran administrasi dan teknis pekerjaan Penyusunan Rencana Detail Tata Ruang (RDTR) Kawasan Agropolitan Kabupaten

Tujuan dari penelitian ini yaitu pembangunan sistem komputerisasi untuk penentuan status daya dukung lingkungan berbasis neraca lahan dan mengidentifikasi keseimbangan lahan

Demikian kami sampaikan, atas perhatiaannya kami ucapkan

Pada kesempatan ini penulis tak lupa mengucapkan terima kasih kepada pihak – pihak yang telah banyak membantu selama pelaksanaan Tugas Akhir di Fakultas Teknologi Industri

Pemanfaatan ruang perkotaan tahun 2013 diperoleh dari hasil interpretasi citra Quickbird tahun 2010 dan dilakukan cek lapangan pada tahun 2013 untuk