NAMA : Anak Agung Ngurah Manik Artawan Nim : 210030244
1. Jelaskan tentang Data Mining dalam Bahasa sendiri :
"Data mining" bisa dijelaskan sebagai proses menggali informasi atau pola yang tersembunyi di dalam sejumlah besar data. Jadi, dengan metode data mining, kita bisa "menambang" informasi berharga dari Kumpulan data yang kita miliki untuk membantu mengambil keputusan bisnis atau membuat prediksi tentang hal-hal yang mungkin terjadi di masa depan.
2. Konsep alur proses Data Mining :
Model CRISP-DM (Cross-Industry Standard Process for Data Mining) yang umumnya digunakan sebagai standar dalam industri untuk mengaplikasikan teknik data mining, berikut adalah tahapan dalam CRISP-DM:
a. Pemahaman Bisnis (Business Understanding):
- Definisi Masalah: Mengiden fikasi dan merumuskan permasalahan yang akan diatasi.
- Tujuan: Menentukan tujuan proyek data mining dan menyesuaikan dengan strategi bisnis.
- Kriteria Keberhasilan: Menetapkan kriteria yang akan digunakan untuk mengukur keberhasilan proyek.
b. Pemahaman Data (Data Understanding):
- Koleksi Data: Mengumpulkan data dari berbagai sumber yang tersedia.
- Eksplorasi Data: Melakukan analisis eksplora f, seper penghitungan sta s k deskrip f dan visualisasi data.
- Kualitas Data: Menilai kualitas dan integritas data untuk keperluan analisis lebih lanjut.
c. Persiapan Data (Data Prepara on):
- Pembersihan Data: Mengiden fikasi dan mengatasi masalah data seper nilai yang hilang, outlier, dan kesalahan.
- Transformasi Data: Mengubah data ke dalam format yang sesuai untuk analisis, seper normalisasi dan encoding.
- Pembentukan Data: Membuat dataset yang akan digunakan untuk mela h dan menguji model.
d. Pemodelan (Modeling):
- Pemilihan Teknik: Memilih teknik pemodelan yang sesuai dengan data dan permasalahan.
- Pembangunan Model: Menggunakan data untuk mela h model dengan teknik yang telah dipilih.
- Penilaian Model: Memilih metrik evaluasi yang relevan untuk menilai performa model.
e. Evaluasi (Evalua on):
- Penilaian Model: Menggunakan metrik yang telah ditentukan untuk menilai performa model yang dibangun.
- Validasi Model: Melakukan validasi untuk memas kan model dapat memenuhi tujuan bisnis.
- Tinjauan Proses: Mereview seluruh proses untuk memas kan semuanya berjalan sesuai rencana.
f. Implementasi (Deployment):
- Penerapan Model: Mengintegrasikan model ke dalam sistem operasional bisnis.
- Pemantauan Model: Memantau performa model dan melakukan penyesuaian jika diperlukan.
- Laporan dan Dokumentasi: Membuat laporan hasil dan mendokumentasikan proses dan keputusan.
g. Pemeliharaan (Maintenance):
- Review: Melakukan review berkala pada sistem dan model yang diimplementasikan.
- Pembaruan Model: Melakukan pembaruan dan tuning model sesuai kebutuhan bisnis yang berubah.
- Pemantauan: Terus memantau dan mengevaluasi performa model secara berkala.
3. Masalah-masalah dalam Data Mining :
Berikut adalah masalah-masalah yang sering pada proses data mining a. Kualitas Data
- Data yang Hilang (Missing Data): Banyak dataset memiliki masalah dengan data yang hilang atau dak lengkap, yang bisa mempengaruhi analisis.
- Kesalahan dan Ke dakakuratan: Data yang dak akurat atau memiliki kesalahan bisa merusak validitas model dan hasil analisis.
b. Scalability dan Kinerja
- Volume Data: Mengolah volume data yang besar bisa menjadi tantangan dari sisi komputasi dan memori.
- Kemampuan Skalabilitas: Tantangan dalam menyesuaikan teknik data mining untuk bekerja efisien pada dataset besar.
c. Integrasi Data
- Konsistensi: Menggabungkan data dari sumber yang berbeda seringkali melibatkan masalah konsistensi dan format data.
- Redundansi: Mengatasi isu redundansi data saat integrasi data dari berbagai sumber.
d. Dimensi dan Kompleksitas
- Dimensi Tinggi: Menghadapi data dengan jumlah fitur atau dimensi yang nggi bisa menimbulkan "kutukan dimensi" (curse of dimensionality).
- Kompleksitas Model: Mengembangkan model yang dak terlalu kompleks untuk menghindari overfi ng namun cukup detail untuk merepresentasikan data.
e. Privasi dan Keamanan
- Privasi Data: Melindungi privasi informasi individu saat melakukan analisis data adalah isu e s dan seringkali legal.
- Keamanan Data: Menjaga keamanan data selama proses mining untuk mencegah akses dak sah.
f. Bias dan Ke dakadilan
- Bias dalam Data: Dataset yang bias bisa menghasilkan model yang diskrimina f atau dak adil.
- Bias Algoritma: Memilih atau menciptakan algoritma yang dak memperkenalkan bias tambahan.
g. Interpretabilitas Model
- Kompleksitas vs. Interpretabilitas: Model yang sangat kompleks bisa sulit diinterpretasikan meski memiliki akurasi yang nggi.
- Keputusan Model: Memahami mengapa model membuat keputusan tertentu bisa menjadi tantangan.
h. Validasi dan Evaluasi Model
- Overfi ng: Membuat model yang terlalu spesifik untuk data la h dan performa buruk pada data yang belum pernah dilihat.
- Metrik Evaluasi: Memilih metrik evaluasi yang paling merepresentasikan kebutuhan bisnis dan model.
i. Aspek Hukum dan Regulasi
- Kepatuhan: Memas kan bahwa proses data mining mematuhi regulasi dan undang- undang yang relevan, seper GDPR untuk privasi data.
- E ka: Memas kan bahwa proses dan hasil data mining e s dan dak merugikan pihak tertentu.
j. Sumber Daya
- Komputasi: Kekurangan sumber daya komputasi untuk mengolah data dan model.
- Keahlian: Keterbatasan dalam keahlian dan pengetahuan m terkait teknik dan alat data mining.
4. Review Jurnal tentang Data Mining JUDUL :
Implementa on Educa onal Data Mining For Analysis of Student Performance Predic on with Comparison of K-Nearest Neighbor Data Mining Method and Decision Tree C4.5
PENULIS :
Lili Dwi Yulianto, Agung Triayudi dan Ira Diana Sholiha SUMBER :
Vol. 4 No. 1 (2020): May: Manajemen, Teknologi Informa ka dan Komunikasi (Man k). Sistem Informasi Universitas Nasional, Universitas Nasional, Jl. Sawo Manila, RT.14 / RW.3, Ps. Sunday, Kec. Ps. Minggu, Kota Jakarta Selatan, Special Capital Region of Jakarta 12520
REVIEW :
Penulis membahas tentang Data Mining di bidang Educa onal Data Mining (EDM) yang bertujuan untuk meningkatkan mutu pendidikan demi terciptanya sumber daya manusia yang kompeten dan berintegritas nggi. Banyaknya data yang terdapat di Perguruan Tinggi dapat dimanfaatkan untuk kebutuhan informasi yang berguna agar dapat diketahui atribut-atribut datanya sehingga data tersebut dianalisis untuk meningkatkan kinerja dan prestasi mahasiswa, hasil analisis tersebut diharapkan dapat mengan sipasi permasalahan keterlambatan masa studi yang sering dialami oleh mahasiswa.
METODE :
Dalam peneli an ini dilakukan dengan menggunakan dua model algoritma yaitu K-Nearest Neighbor dan Decision Tree C4.5. Nilai akurasi yang terbaik adalah pada model algoritma K- Nearest Neighbor dengan ngkat akurasi sebesar 59,32%, sedangkan pada model Decision Tree C4.5 ngkat akurasi sebesar 54,80%, penerapan EDM dan diharapkan dapat dimaksimalkan dan dikembangkan sehingga dapat berkontribusi dan berkembang dalam dunia pendidikan khususnya di bidang data mining
KESIMPULAN :
Berdasarkan hasil pembahasan pada jurnal tersebut terdapat beberapa perhitungan, pengujian dan perbandingan kedua perbandingan Decision Tree c4.5 dengan metode K-Nearest Neighbor, maka dapat diambil kesimpulan sebagai berikut.
- Berdasarkan pengujian terhadap kedua model algoritma dengan menggunakan pela han rasio data dapat mempengaruhi hasil se ap nilai akurasi, adapun nilai akurasi terbaik pada model algoritma K-Nearest Neighbor dengan ngkat akurasi sebesar 59,32% sedangkan pada model algoritma Decision Tree c4 .5 memiliki ngkat akurasi sebesar 54,80%
- Dapat disimpulkan bahwa nilai akurasi terbaik dari perbandingan kedua model algoritma diperoleh oleh model algoritma K-Nearest Neighbor dengan ngkat akurasi sebesar 59,32%. Harapan Besar Konsep Data Mining Pendidikan ini dapat dimaksimalkan dan dikembangkan sehingga dapat memberikan kontribusi dan kemajuan dalam dunia Pendidikan
- Aplikasi yang akan dikembangkan berupa Sistem Cerdas untuk memprediksi kelulusan studi siswa dengan menggunakan K-Nearest Neighbor.