Rangkuman-Rangkuman Materi Pembuka Seputar Mata Kuliah Data Mining Program Studi Pendidikan Matematika Strata 1 Semester 6

(1)

Nama : Fitri Nur Faiqotul Ajizah NIM : 4101422123

Mata Kuliah : Data Mining

1. Perbedaan utama antara Supervised Learning dan Unsupervised Learning dalam Data Mining adalah:

Aspek Supervised Learning Unsupervised Learning Definisi

Model dilatih dengan data yang memiliki label (input-output diketahui).

Model dilatih tanpa label, hanya berdasarkan pola dalam data.

Tujuan Memprediksi nilai atau mengklasifikasikan data baru.

Mengidentifikasi pola, hubungan, atau struktur tersembunyi dalam data.

Input Data Memiliki pasangan input dan output yang diketahui.

Hanya memiliki data input tanpa label output.

Output Kategori atau nilai numerik yang spesifik.

Kelompok (cluster) atau pola tersembunyi dalam data.

Contoh Algoritma

Decision Tree, Random Forest, SVM, Neural Networks, Regression.

K-Means Clustering, DBSCAN, PCA, Apriori Algorithm.

•

Supervised Learning digunakan ketika kita memiliki data berlabel dan ingin membuat model yang bisa memprediksi atau mengklasifikasikan data baru berdasarkan pola yang telah dipelajari.

•

Unsupervised Learning digunakan ketika kita hanya memiliki data tanpa label dan ingin menemukan struktur tersembunyi atau pola dalam data.

Misalnya, dalam Supervised Learning, kita bisa melatih model untuk memprediksi apakah email itu spam atau tidak berdasarkan contoh email yang sudah diberi label sebelumnya. Sedangkan dalam Unsupervised Learning, kita bisa mengelompokkan pelanggan berdasarkan pola belanja mereka tanpa mengetahui kategori mereka sebelumnya.

2. Berikut adalah dua contoh kasus nyata untuk masing-masing metode Supervised Learning dan Unsupervised Learning:

1. Contoh Supervised Learning

Supervised Learning digunakan ketika kita memiliki data berlabel, yaitu data dengan pasangan input dan output yang diketahui.

Deteksi Penipuan Kartu Kredit

(2)

•

Sebuah bank menggunakan model Machine Learning untuk mendeteksi transaksi kartu kredit yang mencurigakan.

•

Data latih terdiri dari riwayat transaksi dengan label "fraud" (penipuan) atau

"non-fraud".

•

Setelah dilatih, model dapat mengklasifikasikan transaksi baru sebagai fraud atau bukan berdasarkan pola yang telah dipelajari.

Prediksi Harga Rumah

•

Model dilatih dengan data rumah yang berisi fitur seperti luas tanah, jumlah kamar, lokasi, dan harga jual.

•

Model kemudian mempelajari hubungan antara fitur-fitur tersebut dan harga jualnya.

•

Ketika diberikan data rumah baru, model dapat memprediksi harga rumah tersebut.

2. Contoh Unsupervised Learning

Unsupervised Learning digunakan ketika kita hanya memiliki data tanpa label dan ingin menemukan pola tersembunyi dalam data.

Segmentasi Pelanggan dalam E-Commerce

•

Sebuah toko online ingin memahami pola belanja pelanggan tanpa mengetahui kategori mereka sebelumnya.

•

Menggunakan algoritma K-Means Clustering, pelanggan dapat dikelompokkan berdasarkan faktor seperti frekuensi belanja, jumlah pembelian, dan

preferensi produk.

•

Hasilnya digunakan untuk strategi pemasaran yang lebih efektif, seperti personalisasi promosi berdasarkan kelompok pelanggan.

Deteksi Anomali dalam Keamanan Siber

•

Sistem keamanan perusahaan ingin mendeteksi aktivitas mencurigakan dalam jaringan mereka.

•

Dengan menggunakan algoritma anomaly detection, model dapat belajar dari pola aktivitas normal pengguna.

•

Jika ada aktivitas yang berbeda secara signifikan dari pola normal, sistem dapat menandainya sebagai potensi ancaman siber.

Kesimpulan

(3)

•

Supervised Learning cocok untuk prediksi atau klasifikasi ketika data memiliki label.

•

Unsupervised Learning digunakan untuk mengelompokkan atau menemukan pola dalam data yang tidak memiliki label.

3. Berikut tiga algoritma yang sering digunakan dalam Supervised Learning beserta cara kerjanya secara singkat:

1. Decision Tree

Cara kerja:

• Decision Tree adalah algoritma berbasis pohon keputusan yang membagi data menjadi cabang-cabang berdasarkan aturan tertentu.

• Setiap node dalam pohon mewakili fitur, dan setiap cabang mewakili keputusan berdasarkan nilai fitur tersebut.

• Proses ini berlanjut sampai mencapai daun yang menentukan hasil prediksi (klasifikasi atau regresi).

Contoh:

Digunakan untuk memprediksi apakah pelanggan akan membeli produk atau tidak berdasarkan usia, pendapatan, dan kebiasaan belanja.

2. Support Vector Machine (SVM)

Cara kerja:

• SVM bekerja dengan mencari hyperplane (garis pemisah dalam 2D atau bidang dalam dimensi lebih tinggi) yang paling optimal untuk memisahkan kelas-kelas dalam data.

• Algoritma ini berusaha memaksimalkan jarak antara garis pemisah dan data terdekat (disebut support vectors).

• Cocok untuk masalah klasifikasi dan regresi.

Contoh:

Digunakan dalam deteksi email spam, di mana SVM memisahkan email menjadi kategori spam atau non-spam berdasarkan fitur seperti jumlah kata tertentu, panjang email, dan pengirimnya.

3. Linear Regression

Cara kerja:

(4)

• Linear Regression digunakan untuk memprediksi nilai kontinu dengan menemukan hubungan linier antara variabel input (X) dan output (Y).

• Model membentuk persamaan garis lurus dalam bentuk: Y=aX+bY = aX + b di mana a adalah koefisien yang menentukan seberapa besar pengaruh variabel X terhadap Y.

• Tujuan algoritma adalah meminimalkan selisih antara prediksi dan nilai sebenarnya dengan teknik seperti Mean Squared Error (MSE).

Contoh:

Digunakan dalam prediksi harga rumah, di mana model memperkirakan harga berdasarkan variabel seperti luas tanah, jumlah kamar, dan lokasi.

Kesimpulan:

• Decision Tree → Digunakan untuk klasifikasi dengan membuat struktur pohon keputusan.

• SVM → Mencari hyperplane optimal untuk memisahkan kelas data.

• Linear Regression → Digunakan untuk prediksi nilai numerik berdasarkan hubungan linier.

4. Berikut dua algoritma utama dalam Unsupervised Learning beserta cara kerja dan contoh penerapannya:

1. K-Means Clustering

Cara Kerja:

• K-Means adalah algoritma yang digunakan untuk mengelompokkan data ke dalam K cluster berdasarkan kemiripan antar data.

• Prosesnya:

1. Menentukan jumlah cluster K yang diinginkan.

2. Memilih K titik pusat (centroids) secara acak.

3. Mengelompokkan setiap data ke centroid terdekat.

4. Menghitung ulang posisi centroid berdasarkan rata-rata titik dalam cluster.

5. Mengulangi langkah ini sampai centroid tidak berubah atau mencapai batas iterasi.

Contoh Penerapan:

✅ Segmentasi Pelanggan

• Digunakan oleh perusahaan e-commerce untuk mengelompokkan pelanggan berdasarkan pola belanja mereka.

• Hasilnya dapat digunakan untuk membuat strategi pemasaran yang lebih spesifik untuk setiap kelompok pelanggan.

(5)

2. Principal Component Analysis (PCA)

Cara Kerja:

• PCA adalah algoritma yang digunakan untuk mengurangi dimensi data tanpa kehilangan informasi penting.

• Prosesnya:

1. Mengubah data ke dalam sistem koordinat baru dengan memutar sumbu data.

2. Menentukan komponen utama (principal components), yaitu kombinasi linear fitur asli yang memiliki variasi terbesar dalam data.

3. Memilih sejumlah kecil komponen utama yang menjaga sebagian besar informasi dalam data.

Contoh Penerapan:

✅ Pengenalan Wajah

• Digunakan dalam sistem face recognition untuk mengurangi dimensi data gambar wajah sebelum digunakan dalam model klasifikasi.

• PCA membantu menghapus fitur yang tidak terlalu penting dan hanya menyimpan informasi yang paling berguna.

Kesimpulan:

• K-Means Clustering → Mengelompokkan data ke dalam beberapa cluster berdasarkan kesamaan.

• PCA (Principal Component Analysis) → Mengurangi dimensi data untuk meningkatkan efisiensi analisis.

5.Dalam Supervised Learning, Regresi dan Klasifikasi adalah dua jenis tugas utama. Berikut adalah perbedaan utama antara keduanya:

Aspek Regresi Klasifikasi

Definisi Memodelkan hubungan antara variabel input dan output numerik kontinu.

Memprediksi kategori atau label dari data input.

Jenis

Output Nilai numerik (kontinu). Kelas atau kategori (diskrit).

Tujuan Memprediksi angka berdasarkan pola yang ada.

Memprediksi kelompok mana data tersebut termasuk.

(6)

Aspek Regresi Klasifikasi Contoh

Kasus Prediksi harga rumah, prediksi suhu udara. Deteksi spam email, klasifikasi gambar kucing vs anjing.

1. Regresi

Regresi digunakan ketika output adalah nilai kontinu.

Contoh Algoritma:

• Linear Regression → Memodelkan hubungan linier antara input dan output.

• Decision Tree Regressor → Membuat pohon keputusan untuk memprediksi nilai numerik.

• Random Forest Regressor → Gabungan beberapa pohon keputusan untuk meningkatkan akurasi.

Contoh Kasus Regresi:

• Prediksi Harga Rumah: Menggunakan Linear Regression untuk memperkirakan harga rumah berdasarkan luas tanah, jumlah kamar, dan lokasi.

• Prediksi Suhu Udara: Menggunakan Random Forest Regressor untuk memprediksi suhu berdasarkan data cuaca sebelumnya.

2. Klasifikasi

Klasifikasi digunakan ketika output adalah kategori atau label diskrit.

Contoh Algoritma:

• Logistic Regression → Meskipun namanya regresi, algoritma ini digunakan untuk klasifikasi biner.

• Support Vector Machine (SVM) → Mencari hyperplane terbaik untuk memisahkan kelas data.

• Random Forest Classifier → Gabungan beberapa pohon keputusan untuk meningkatkan performa klasifikasi.

Contoh Kasus Klasifikasi:

• Deteksi Email Spam: Menggunakan Naïve Bayes untuk mengklasifikasikan email sebagai "Spam" atau "Non-Spam".

• Klasifikasi Gambar Hewan: Menggunakan Convolutional Neural Network (CNN) untuk mengenali gambar anjing atau kucing.

(7)

Kesimpulan:

• Regresi → Digunakan untuk memprediksi nilai numerik (misalnya, harga, suhu).

• Klasifikasi → Digunakan untuk memprediksi kategori atau label (misalnya, spam atau tidak spam).

6.Dalam Supervised Learning, terdapat beberapa metrik evaluasi yang digunakan untuk menilai performa model. Berikut adalah tiga metrik utama:

1. Accuracy (Akurasi) – Untuk Klasifikasi

Fungsi:

• Mengukur persentase prediksi yang benar dari seluruh data uji.

• Digunakan terutama dalam klasifikasi dengan jumlah kelas yang seimbang.

Contoh:

Jika model mendeteksi spam dalam email dan memprediksi 90 dari 100 email dengan benar, maka akurasi model adalah 90%.

Catatan:

Akurasi kurang efektif jika dataset tidak seimbang (misalnya, 95% data kelas "Tidak Fraud" dan 5% "Fraud", model bisa mencapai 95% akurasi hanya dengan selalu memprediksi "Tidak Fraud").

2. Mean Squared Error (MSE) – Untuk Regresi

Fungsi:

• Mengukur seberapa jauh prediksi model dari nilai sebenarnya dalam regresi.

• Memberikan penalti lebih besar untuk kesalahan yang lebih besar.

Contoh:

Jika model memprediksi harga rumah $250,000, tetapi harga aslinya $270,000, maka kesalahannya adalah $20,000, dan kuadrat dari kesalahan ini dihitung dalam MSE.

Catatan:

• Nilai MSE yang lebih kecil berarti prediksi lebih akurat.

• Karena MSE menggunakan kuadrat kesalahan, nilai yang sangat besar akan lebih berdampak pada hasil.

(8)

3. Precision dan Recall – Untuk Klasifikasi (Ketidakseimbangan Data)

Fungsi:

• Precision: Mengukur seberapa banyak prediksi positif yang benar. Berguna jika kesalahan false positive harus dikurangi (misalnya, diagnosis kanker).

• Recall: Mengukur seberapa banyak data positif yang benar-benar terdeteksi. Berguna jika false negative harus dikurangi (misalnya, deteksi fraud).

Contoh:

• Dalam deteksi kanker, lebih baik memiliki tinggi recall untuk memastikan semua pasien kanker terdeteksi, meskipun ada beberapa false positive.

• Dalam deteksi spam email, lebih baik memiliki tinggi precision agar email penting tidak diklasifikasikan sebagai spam.

Catatan:

Jika ingin menyeimbangkan precision dan recall, gunakan F1-Score sebagai metrik gabungan.

Kesimpulan:

1. Accuracy → Cocok untuk klasifikasi dengan distribusi kelas yang seimbang.

2. MSE (Mean Squared Error) → Cocok untuk regresi, mengukur seberapa jauh prediksi dari nilai sebenarnya.

3. Precision & Recall → Cocok untuk klasifikasi dengan dataset tidak seimbang, terutama dalam kasus deteksi penting seperti fraud atau penyakit.

7.Apa Itu Clustering?

Clustering adalah teknik dalam Unsupervised Learning yang digunakan untuk mengelompokkan data berdasarkan kesamaan pola atau karakteristiknya tanpa menggunakan label. Tujuan dari clustering adalah untuk menemukan struktur

tersembunyi dalam data dan mengelompokkan objek yang mirip ke dalam kelompok atau cluster yang berbeda.

Dua Metode Clustering dan Cara Kerjanya

1. K-Means Clustering (Partition-Based Clustering) Cara Kerja:

1. Tentukan jumlah cluster K yang diinginkan.

(9)

2. Pilih K titik pusat (centroid) secara acak dari data.

3. Hitung jarak setiap titik data ke centroid terdekat dan kelompokkan ke dalam cluster tersebut.

4. Hitung ulang posisi centroid dengan mengambil rata-rata dari semua titik dalam cluster.

5. Ulangi langkah 3 dan 4 hingga centroid tidak berubah atau mencapai batas iterasi.

Contoh Penerapan:

• Segmentasi pelanggan e-commerce berdasarkan pola belanja.

• Pengelompokan dokumen berdasarkan kesamaan topik.

Kelemahan:

• Harus menentukan jumlah cluster K sebelumnya.

• Sensitif terhadap pemilihan titik awal centroid dan bisa terjebak dalam local optimum.

2. DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Cara Kerja:

1. Tentukan dua parameter:

o ε (epsilon) → Jarak maksimum antara titik-titik yang dianggap satu cluster.

o MinPts → Jumlah minimal titik dalam radius ε untuk membentuk cluster.

2. Pilih satu titik data secara acak:

o Jika memiliki cukup titik dalam radius ε, ini menjadi "core point" dan membentuk cluster.

o Jika tidak, itu dianggap sebagai "noise" (data outlier).

3. Lanjutkan ke titik lain dan perluas cluster dengan mencari titik yang memenuhi kriteria dalam radius ε.

4. Ulangi hingga semua titik diproses.

Contoh Penerapan:

• Deteksi anomali dalam transaksi keuangan (fraud detection).

• Pengelompokan data geospasial seperti titik lokasi restoran dalam suatu kota.

Kelebihan:

• Tidak perlu menentukan jumlah cluster terlebih dahulu.

• Dapat menemukan cluster dengan bentuk yang tidak beraturan.

• Lebih robust terhadap outlier dibanding K-Means.

Kesimpulan:

(10)

• K-Means → Mengelompokkan data berdasarkan jarak ke centroid, cocok untuk dataset dengan bentuk cluster yang jelas.

• DBSCAN → Mengelompokkan data berdasarkan kepadatan, cocok untuk dataset dengan outlier dan bentuk cluster yang tidak beraturan.

8. Tujuan Reduksi Dimensi dalam Unsupervised Learning

Reduksi dimensi bertujuan untuk mengurangi jumlah fitur dalam dataset sambil tetap mempertahankan informasi yang paling penting. Beberapa manfaat utama dari reduksi dimensi meliputi:

✅ Meningkatkan Efisiensi Komputasi → Mengurangi waktu pemrosesan model.

✅ Mengatasi Curse of Dimensionality → Data berdimensi tinggi bisa menyebabkan

overfitting dan meningkatkan kompleksitas model.

✅ Mempermudah Visualisasi Data → Data dapat divisualisasikan dalam bentuk 2D

atau 3D untuk analisis lebih lanjut.

✅ Mengurangi Redundansi Data → Menghilangkan fitur yang saling berkorelasi

tinggi untuk meningkatkan interpretabilitas.

Metode Principal Component Analysis (PCA)

PCA (Principal Component Analysis) adalah salah satu metode reduksi dimensi yang mengubah fitur asli menjadi fitur baru yang disebut "Principal Components"

(PCs).

Cara Kerja PCA:

1️⃣ Normalisasi Data → Pastikan semua fitur memiliki skala yang sama dengan standardisasi (misalnya, menggunakan Z-score normalization).

2️⃣ Membentuk Matriks Kovarians → Menghitung hubungan antar fitur dalam dataset.

3️⃣ Menentukan Eigenvalues dan Eigenvectors → Eigenvectors menentukan arah komponen utama, sedangkan eigenvalues menunjukkan seberapa banyak variansi yang dijelaskan oleh masing-masing komponen.

4️⃣ Memilih Principal Components → Urutkan eigenvalues dari yang terbesar ke terkecil dan pilih PCs yang menjelaskan sebagian besar variansi (biasanya berdasarkan threshold tertentu, misalnya 95%).

5️⃣ Transformasi Data → Data asli diproyeksikan ke ruang baru menggunakan principal components yang dipilih.

Contoh Penerapan PCA

Pengenalan Wajah → PCA digunakan untuk mengurangi dimensi gambar

wajah dalam sistem Face Recognition, sehingga hanya fitur penting yang digunakan

(11)

untuk klasifikasi.

Analisis Genetik → PCA membantu dalam menemukan pola dalam dataset DNA

yang memiliki ribuan fitur.

Visualisasi Data → Dataset berdimensi tinggi seperti data keuangan dapat

dikonversi ke 2D atau 3D agar lebih mudah dianalisis.

Kesimpulan:

• Reduksi Dimensi bertujuan untuk meningkatkan efisiensi, mengatasi curse of dimensionality, dan meningkatkan interpretabilitas data.

• PCA bekerja dengan mengubah fitur asli menjadi kombinasi fitur baru (Principal Components) yang mempertahankan variansi data sebanyak mungkin.

9. Contoh Metode Hybrid: Semi-Supervised Learning

Definisi:

Semi-Supervised Learning adalah metode hybrid yang menggabungkan Supervised Learning (data berlabel) dan Unsupervised Learning (data tidak berlabel) untuk meningkatkan performa model, terutama ketika hanya sebagian kecil data memiliki label.

Cara Kerja Semi-Supervised Learning

1️⃣ Training Awal dengan Data Berlabel → Model diajarkan menggunakan sejumlah kecil data berlabel untuk memahami pola dasar.

2️⃣ Clustering atau Label Propagation → Model kemudian menggunakan

Unsupervised Learning (misalnya K-Means atau Graph-Based Methods) untuk mengelompokkan data tidak berlabel yang mirip dengan data yang sudah berlabel.

3️⃣ Pemberian Label pada Data Tidak Berlabel → Model memberikan label sementara pada data tidak berlabel berdasarkan kemiripan dengan data yang sudah berlabel.

4️⃣ Training Ulang (Fine-Tuning) → Model dilatih kembali menggunakan dataset yang diperluas, yaitu gabungan dari data berlabel asli + data tidak berlabel yang telah diberikan label sementara.

5️⃣ Evaluasi dan Penyempurnaan → Model diuji dan diperbaiki jika diperlukan.

Contoh Penerapan Semi-Supervised Learning

✅ Deteksi Penipuan (Fraud Detection)

• Hanya sebagian kecil transaksi memiliki label sebagai "fraud" atau "bukan fraud".

(12)

• Semi-Supervised Learning dapat menggunakan clustering untuk menemukan transaksi mencurigakan yang mirip dengan transaksi fraud yang sudah berlabel.

✅ Pengenalan Gambar (Image Classification)

• Dalam dataset besar seperti Google Photos, hanya sebagian kecil gambar diberi label (misalnya, "anjing", "kucing").

• Model dapat belajar dari data berlabel, lalu menggunakan teknik clustering untuk memberi label otomatis pada gambar lain yang belum berlabel.

✅ Analisis Teks (Sentiment Analysis & Chatbot Training)

• Menggunakan sedikit data berlabel untuk memahami sentimen

(positif/negatif/netral) dan kemudian memperluas pemahaman ke data tidak berlabel dengan teknik unsupervised seperti Word Embeddings atau Topic Modeling.

Kesimpulan:

• Semi-Supervised Learning mengombinasikan Supervised dan Unsupervised Learning untuk memanfaatkan dataset besar yang sebagian besar tidak berlabel.

• Keunggulan: Mengurangi ketergantungan pada data berlabel yang mahal dan sulit diperoleh, sambil tetap mempertahankan akurasi tinggi dalam prediksi.