• Tidak ada hasil yang ditemukan

1) Case folding

2.7 Data Mining

Data mining adalah istilah yang digunakan untuk menggambarkan penemuan pengetahuan dalam database. Data mining adalah proses yang menggunakan teknik statistik matematika dan pembelajaran mesin untuk mengekstrak dan mengidentifikasi informasi yang berguna dan pengetahuan terkait dari database besar.

Data mining adalah istilah yang digunakan untuk menggambarkan penemuan pengetahuan dalam database. Data mining adalah proses yang menggunakan teknik statistik matematika dan pembelajaran mesin untuk mengekstrak dan mengidentifikasi informasi yang berguna dan pengetahuan terkait dari database besar. (Turban, 2005).

Data mining adalah serangkaian proses yang bertujuan untuk menemukan nilai tambah dari suatu kumpulan data berupa pengetahuan yang tidak diketahui secara manual dan dengan analisis otomatis dari data yang besar atau kompleks dengan tujuan untuk menemukan pola atau tren penting

yang sering tidak diketahui keberadaan mereka. Atau serangkaian proses untuk menemukan nilai tambah secara manual berupa pengetahuan yang tidak diketahui dari kumpulan data. Data mining juga dikenal sebagai penemuan pengetahuan dalam database (KDD). KDD adalah aktivitas yang melibatkan pengumpulan dan penggunaan data historis untuk menemukan pola-pola atau hubungan dalam kumpulan data yang besar.

Data mining merupakan bagian integral dari penemuan pengetahuan dalam database (KDD). Seluruh proses mengubah data mentah menjadi informasi yang berguna diilustrasikan pada gambar. Data mining adalah istilah yang digunakan untuk menggambarkan penemuan pengetahuan dalam database. Data mining adalah proses yang menggunakan teknik statistik matematika dan pembelajaran mesin untuk mengekstrak dan mengidentifikasi informasi yang berguna dan pengetahuan terkait dari database besar. (Turban, 2005).

Data mining adalah serangkaian proses yang bertujuan untuk menemukan nilai tambah dari suatu kumpulan data berupa pengetahuan yang tidak diketahui secara manual dan dengan analisis otomatis dari data yang besar atau kompleks dengan tujuan untuk menemukan pola atau tren penting yang sering tidak diketahui. keberadaan mereka. Atau serangkaian proses untuk menemukan nilai tambah secara manual berupa pengetahuan yang tidak diketahui dari kumpulan data.

Data mining juga dikenal sebagai penemuan pengetahuan dalam database (KDD). KDD adalah aktivitas yang meliatkan pengumpulan dan penggunaan

13

data historis untuk menemukan pola pola atau hubungan dalam kumpulan data yang besar.

Data mining merupakan bagian integral dari penemuan pengetahuan dalam database (KDD). Seluruh proses mengubah data mentah menjadi informasi yang berguna diilustrasikan pada gambar.

Gambar 2.4 Proses Knowledge Discovery in Databases A. Tehnik Data mining

Teknik data mining digunakan untuk memeriksa database besar untuk pola baru dan berguna. Ini adalah fungsi dari ekstraksi informasi secara umum menurut (Maclennan, Z. Tang., & Crivat, 2008) :

1. Classification

Fungsi dari Classification adalah untuk klasifikasi paling umum sebagai fungsi dari data mining. Proses bisnis menghasilkan analisis, manajemen risiko, dan ditujukan untuk mengklasifikasikan suatu target kelas ke dalam kategori yang dipilih. Klasifikasi merupakan proses menemukan model (fungsi) yang menjelaskan dan membedakan antara kelas atau konsep, dengan tujuan agar model yang dihasilkan dapat digunakan untuk memprediksi kelas atau atribut dengan label kelas yang tidak diketahui. Model turunan didasarkan pada analisis data pelatihan (yaitu atribut data dengan label kelas

Data

yang diketahui). Model turunan dapat direpresentasikan dalam berbagai bentuk seperti aturan klasifikasi IFTHEN, pohon keputusan, rumus matematika atau jaringan saraf tiruan.

Gambar 2.5 Classification (Decision Tree) Sumber : (MacLennan, Z. Tang., & Crivat, B. 2008)

2. Clustering

Clustering adalah metode pengambilan data tanpa pengawasan dan merupakan metode untuk menemukan dan mengelompokkan data dengan karakteristik yang sama antara satu bagian data dengan bagian lainnya (Ong, 2013). Fungsi dari clustering adalah untuk menemukan kelompok record dalam suatu segmen berdasarkan kemiripan.

Gambar 2.6 Clustering

Sumber : (MacLennan, Z. Tang., & Crivat, B. 2008)

Model

15

3. Association

Association digunakan untuk mendefinisikan perilaku peristiwa atau proses tertentu di mana asosiasi terjadi perperistiwa. Fungsi dari union tersebut ada untuk mencari hubungan antar record atau sekumpulan item berdasarkan jumlah entri yang muncul dan aturan asosiasi yang ada.

Gambar 2.7 Product Association

Sumber : (MacLennan, Z. Tang., & Crivat, B. 2008)

Aturan asosiasi ini menjelaskan seberapa sering suatu produk dibeli bersama.

Dalam aturan asosiasi X => Y, X disebut premis dan Y disebut konsekuensi.

4. Regressions

Tujuannya adalah menemukan pola untuk menentukan nilai numerik atau mencari prediksi dari suatu pola yang ada. contoh, regresi di mana hasilnya adalah berfungsi untuk menentukan output berdasarkan nilai-nilai masukan.

Nilai numerik yang paling populer adalah teknik yang digunakan untuk regresi linier dan regresi logistik.

5. Forecasting

Fungsi forecast adalah untuk meramalkan cuaca yang akan datang berdasarkan trend yang terjadi pada cuaca seelumnya.

Milk

Gambar 2.8 Time Series

Sumber : (MacLennan, Z. Tang., & Crivat, B. 2008)

6. Sequence analysis

Analisis urutan akan digunakan untuk menemukan pola dalam urutan kejadian yang disebut urutan. Fungsi analisis urutan adalah untuk menemukan pola dalam urutan urutan kejadian.

Gambar 2.9 Web Navigation Sequence Sumber : (MacLennan, Z. Tang., & B. Crivat, 2008)

7. Deviation Analysis

Analisis deviasi digunakan untuk menemukan kejadian langka di mana perilaku sangat berbeda dari biasanya. Fungsi dari gap analysis adalah untuk mencari kejadian langka yang sangat berbeda dengan keadaan normal (unusual event).

17

2.5 Klasifikasi

Klasifikasi merupakan pengidentifikasian sekumpulan kategori yang termasuk dalam observasi baru, berdasarkan serangkaian pelatihan data yang berisi pengamatan yang kategori keanggotaannya diketahui dalam machine learning dan statistic. Misalnya, memasukkan email ke dalam kelas

”spam” atau “non-spam” atau memberikan diagnosis kepada pasien tertentu seperti yang dijelaskan oleh karakteristik yang diamati pasien (jenis kelamin, tekanan darah, gejala tertentu yang terdektesi atau tidak dan lain-lain).

Klasifikasi merupakan salah satu teknik machine learning yang bersifat supervised learning (pembelajaran terbimbing). Klasifikasi merupakan salah satu tugas pembelajaran yang paling umum terjadi dalam praktek komputasi.

Secara umum, label kelas tidak dapat ditetapkan secara numerik ataupun secara beberapa nilai lainnya (Novakovic, 2017).

Dokumen terkait