For the Glory of the Nation
Data Mining
Concepts & Techniques
Data Mining Implementation
DOSEN PENGAMPU:
Dwi Welly Sukma Nirad, M.T.
Aina Hubby Aziira, M.Eng.
For the Glory of the Nation
• Dunia industri yang beragam bidangnya memerlukan proses yang standard yang mampu mendukung penggunaan data mining untuk menyelesaikan masalah bisnis.
• Proses tersebut harus dapat digunakan di lintas industry (cross-
industry) dan netral secara bisnis, tool dan aplikasi yang digunakan, serta mampu menangani berbagai strategi pemecahan masalah bisnis dengan menggunakan data mining.
• Pada tahun 1996, lahirlah salah satu standard proses di dunia data mining yang kemudian disebut dengan: the Cross-Industry Standard Process for Data Mining (CRISP-DM) (Chapman, 2000).
Data Mining Standard Process
For the Glory of the Nation
CRISP-DM
For the Glory of the Nation
Problems:
• Pak Stephen adalah Rektor di Universitas ABC.
• Universitas ABC memiliki masalah besar karena rasio kelulusan mahasiswa tiap Angkatan sangat rendah.
• Pak Stephen ingin memahami dan membuat pola dari profile mahasiswa yang bisa lulus tepat waktu dan yang tidak lulus tepat waktu.
• Dengan pola tersebut, harapannya Pak Stephen dapat melakukan konseling terapi dan memberi peringatan dini kepada mahasiswa yang kemungkinan akan lulus tidak tepat waktu sehingga hal tersebut dapat dicegah.
(1) Business Understanding
Objective:
• Menemukan pola dari mahasiswa yang lulus tepat waktu dan yang tidak
lulus tepat waktu.
For the Glory of the Nation
• Untuk menyelesaikan masalah ini, Pak Stephen mengambil data dari sistem informasi akademik Universitas ABC.
• Data-data dikumpulkan dari data profil mahasiswa dan IP semester mahasiswa, dengan atribut seperti di bawah ini:
(2) Data Understanding
For the Glory of the Nation
(2) Data Understanding
For the Glory of the Nation
• Terdapat 379 data mahasiswa dengan 15 atribut.
• Missing value sebanyak 10 data, dan tidak terdapat data noise.
(3) Data Preparation
For the Glory of the Nation
• Missing value dipecahkan dengan menambahkan data dengan nilai rata-rata.
• Hasilnya adalah data yang bersih tanpa missing value lagi.
(3) Data Preparation
For the Glory of the Nation
• Modelkan dataset dengan Decision Tree.
• Pola yang dihasilkan bisa berbentuk tree atau if-then.
(4) Modeling
For the Glory of the Nation
• Hasil decision tree.
(4) Modeling
For the Glory of the Nation
(4) Modeling
• Hasil rule if-then
For the Glory of the Nation
• Atribut atau faktor yang paling
berpengaruh adalah status mahasiswa, IPS2, IPS5, IPS1.
• Atribut atau faktor yang tidak
berpengaruh adalah nama, jenis kelamin, umur, IPS6, IPS7, IPS8.
(5) Evaluation
For the Glory of the Nation
• Grafik menunjukkan bahwa konsumsi minyak memiliki korelasi positif dengan rata-rata usia.
• Meskipun ada beberapa anomali juga terjadi:
• Ada beberapa orang yang rata-rata usia tinggi, tapi kebutuhan minyaknya rendah (warna biru muda di kolom kiri bagian atas).
• Ada beberapa orang yang rata-rata usia rendah, tapi kebutuhan minyaknya tinggi (warna merah di kolom kanan bagian bawah).
(5) Contoh Lain
Evaluation
1
For the Glory of the Nation
• Pak Stephen membuat program peningkatan disiplin dan pendampingan bagi mahasiswa di semester awal (1-2) serta semester 5, karena faktor yang paling menentukan kelulusan mahasiswa terdapat pada dua semester tersebut.
• Pak Stephen membuat peraturan yang melarang mahasiswa bekerja paruh waktu di semester awal perkuliahan, karena memiliki risiko tinggi terhadap kelulusan tepat waktu.
• Pak Stephen membuat program kerja paruh waktu di dalam kampus, sehingga banyak pekerjaan kampus dapat dikelola secara intensif, sekaligus mendidik mahasiswa agar memiliki pengalaman kerja. Yang paling penting, mahasiswa tetap dapat mengikuti perkuliahan tanpa terganggu oleh pekerjaan.
• Pak Stephen memasukkan pola dan model yang terbentuk ke dalam sistem informasi akademik, yang diperbarui secara berkala setiap semester. Sistem informasi akademik ini dirancang secara cerdas agar dapat mengirimkan email analisis pola kelulusan secara otomatis kepada mahasiswa sesuai dengan profil mereka.
(6) Deployment
For the Glory of the Nation
• Business objectives are the origin of every data mining solution (Business Goals Law).
• Business knowledge is central to every step of the data mining process (Business Knowledge Law).
• Data preparation is more than half of every data mining process (Data Preparation Law).
• There is no free lunch for the data miner (No Free Lunch Theory).
• There are always patterns (Watkins’ Law).
• Data mining amplifies perception in the business domain (Insight Law).
• Prediction increases information locally by generalization (Prediction Law).
• The value of data mining results is not determined by the accuracy or stability of predictive models (Value Law).
• All patterns are subject to change (Law of Change).
Data Mining Law
Tom Khabaza, Nine Laws of Data Mining, 2010
For the Glory of the Nation
• “Tujuan bisnis adalah asal mula dari setiap solusi data mining”.
• Data mining berfokus pada penyelesaian masalah bisnis dan mencapai tujuan bisnis.
• Data mining bukanlah sekadar teknologi, tetapi merupakan
sebuah proses yang di dalamnya terdapat satu atau lebih tujuan bisnis sebagai inti utamanya.
• Tanpa tujuan bisnis, tidak ada data mining.
• Prinsip utama: "Data Mining adalah Proses Bisnis".
(1) Business Goals Law
For the Glory of the Nation
• “Pengetahuan bisnis adalah aspek utama dalam setiap langkah proses data mining”.
• Pembacaan sekilas terhadap CRISP-DM akan melihat bahwa pengetahuan bisnis hanya digunakan di awal proses untuk mendefinisikan tujuan dan di akhir proses untuk membimbing penerapan hasil.
• Namun secara nyata, pengetahuan bisnis terlibat di semua proses.
(2) Business Knowledge Law
For the Glory of the Nation
• Business understanding harus didasarkan pada pengetahuan bisnis,
sehingga harus ada pemetaan tujuan bisnis ke dalam tujuan data mining.
• Data understanding menggunakan pengetahuan bisnis untuk memahami data mana yang terkait dengan masalah bisnis, serta bagaimana
keterkaitannya.
• Data preparation berarti menggunakan pengetahuan bisnis untuk membentuk data sehingga pertanyaan bisnis yang diperlukan dapat diajukan dan dijawab.
• Modeling berarti menggunakan algoritma data mining untuk membuat model prediktif dan menafsirkan baik model maupun perilakunya dalam istilah bisnis – yaitu, memahami relevansi bisnisnya.
• Evaluation berarti memahami dampak bisnis dari penggunaan model.
• Deployment berarti menerapkan hasil data mining ke dalam proses bisnis.
(2) Business Knowledge Law
For the Glory of the Nation
• “Persiapan data mencakup lebih dari setengah dari setiap proses data mining”.
• Prinsip utama dalam data mining: sebagian besar upaya dalam proyek data mining dihabiskan untuk persiapan data (perkiraan informal berkisar antara 50 hingga 80 persen).
• Tujuan dari persiapan data adalah:
• Mengubah data ke dalam bentuk yang memungkinkan pertanyaan data mining dapat diajukan.
• Membuatnya lebih mudah bagi teknik analitis (seperti algoritma data mining) untuk menjawab pertanyaan tersebut.
(3) Data Preparation Law
For the Glory of the Nation
• “Tidak ada makan siang gratis bagi data miner (NFL-DM)”.
• Model yang tepat untuk suatu aplikasi hanya dapat ditemukan melalui eksperimen.
• Dalam machine learning:
• Jika kita benar-benar memahami suatu masalah, kita bisa memilih atau merancang algoritma yang paling efisien untuk menyelesaikannya.
• Mengapa tidak ada algoritma terbaik untuk semua kasus?
• Setiap masalah dalam data mining memiliki karakteristik yang berbeda.
• Beberapa algoritma bisa lebih cocok untuk satu jenis masalah dibandingkan yang lain.
• Tidak ada satu solusi yang selalu benar:
• Model yang berbeda bisa digunakan untuk menyelesaikan bagian masalah yang berbeda.
• Data yang disiapkan oleh seorang data miner bisa mengubah cara kerja model, sehingga cara menilai model juga bisa berubah seiring waktu.
(4) No Free Lunch Theory
For the Glory of the Nation
• “Selalu ada pola”.
• Proyek data mining tidak akan dilakukan jika para ahli bisnis tidak
mengharapkan adanya pola dalam data. Biasanya, para ahli benar dalam hal ini, sehingga menemukan pola dalam data tidaklah mengejutkan.
• Selalu ada sesuatu yang menarik untuk ditemukan dalam kumpulan data yang relevan dengan bisnis. Bahkan jika pola yang diharapkan tidak ditemukan,
biasanya akan ada sesuatu yang berguna yang bisa ditemukan (David Watkins).
(5) Watkins’ Law
For the Glory of the Nation
• “Data mining memperkuat persepsi dalam dunia bisnis”.
• Bagaimana data mining menghasilkan wawasan?
• Konsep ini menyentuh inti dari data mining – mengapa harus menjadi proses bisnis dan bukan sekadar proses teknis.
• Masalah bisnis diselesaikan oleh manusia, bukan oleh algoritma.
• Data miner dan ahli bisnis "melihat" solusi dari suatu masalah, yaitu pola dalam domain yang memungkinkan tujuan bisnis tercapai.
• Data mining adalah proses persepsi.
• Algoritma data mining mengungkap pola yang biasanya tidak terlihat oleh manusia.
• Dalam proses data mining, pemecah masalah manusia:
• Menafsirkan hasil dari algoritma data mining.
• Mengintegrasikan hasil tersebut ke dalam pemahaman bisnis mereka.
(6) Insight Law
For the Glory of the Nation
• “Prediksi meningkatkan informasi secara lokal melalui generalisasi”.
• Model prediktif berarti memprediksi hasil yang paling mungkin terjadi.
• Model clustering dapat digambarkan sebagai "memprediksi" kelompok tempat individu berada.
• Model asosiasi dapat digambarkan sebagai "memprediksi" satu atau lebih atribut berdasarkan atribut yang sudah diketahui.
• Apa arti "prediksi" dalam konteks ini?
• Apa kesamaan antara algoritma klasifikasi, regresi, clustering, dan asosiasi, serta model yang dihasilkannya?
• Jawabannya terletak pada "scoring", yaitu penerapan model prediktif pada contoh baru.
• Informasi yang tersedia tentang contoh tersebut meningkat, berdasarkan pola yang ditemukan oleh algoritma dan diterapkan dalam model (generalisasi atau induksi).
(7) Prediction Law
For the Glory of the Nation
• “Nilai hasil data mining tidak ditentukan oleh akurasi atau stabilitas model prediktif”.
• Akurasi dan stabilitas adalah ukuran yang berguna untuk menilai seberapa baik suatu model prediktif dalam membuat prediksi.
• Akurasi berarti seberapa sering prediksi yang dibuat benar.
• Stabilitas menunjukkan seberapa banyak hasil prediksi akan berubah jika data yang
digunakan untuk membuat model berasal dari sampel yang berbeda dalam populasi yang sama.
• Nilai dari model prediktif muncul dalam dua cara:
• Prediksi model membantu menghasilkan tindakan yang lebih efektif.
• Model memberikan wawasan (pengetahuan baru) yang mengarah pada strategi yang lebih baik.
(8) Value Law
For the Glory of the Nation
• “Semua pola dapat berubah”.
• Pola yang ditemukan melalui data mining tidak bertahan selamanya.
• Dalam aplikasi pemasaran dan CRM, pola perilaku pelanggan berubah seiring waktu:
• Tren fashion berubah, pasar dan persaingan berubah, serta ekonomi juga mengalami perubahan secara keseluruhan.
• Model prediktif menjadi usang dan harus diperbarui secara berkala atau ketika sudah tidak dapat membuat prediksi yang akurat.
• Hal yang sama berlaku dalam analisis risiko dan aplikasi terkait penipuan dalam data mining:
• Pola penipuan berubah mengikuti perubahan lingkungan.
• Pelaku kejahatan mengubah perilaku mereka agar tetap selangkah lebih maju dari upaya pencegahan kejahatan.
(9) Change Law
For the Glory of the Nation
Ada Pertanyaan?
For the Glory of the Nation
Terima Kasih!
Dwi Welly Sukma Nirad, M.T.
Referensi:
Data Mining Concepts and Techniques 3rd edition, Han, Jiawei;
Kamber, Micheline, and Jian Pei, Morgan Kaufmann, 2011.
Roni Satria Wahono, Brainmatics, 2022.