Data Mining - TINJAUAN PUSTAKA - Analisis Perbandingan Proses Cluster Menggunakan K- Means Clus

TINJAUAN PUSTAKA

2.1. Data Mining

Data Mining adalah suatu metode pengolahan data untuk menemukan pola yang

tersembunyi dari data tersebut. Hasil dari pengolahan data dengan metode Data

Mining ini dapat digunakan untuk mengambil keputusan di masa depan. Data Mining

ini juga dikenal dengan istilah pattern recognition (Ong, 2013).

Data Mining, sering juga disebut knowledge discovery in database (KDD),

adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam dataset berukuran besar. Keluaran dari Data Mining ini biasa dipakai untuk memperbaiki pengambilan keputusan di masa depan. Sehingga istilah pattern recognition sekarang jarang digunakan karena ia termasuk bagian dari Data Mining (Santosa, 2007).

Data Mining suatu proses kegiatan yang berulang-ulang pada analisis

database dalam jumlah besar, dengan tujuan untuk melakukan penggalian informasi

dan pengetahuan yang dapat membuktikan keakuratan dan potensi yang berguna bagi pengetahuan pekerja yang terlibat dalam pengambilan keputusan dan pemecahan masalah. Istilah data mining itu merujuk pada keseluruhan proses yang terdiri dari pengumpulan data analisis, pengembangan model pembelajaran induktif dan adopsi

keputusan praktis seta tindakan berdasarkan pengetahuan yang diperoleh (Vercilles,2009).Kegiatan data mining dapat dibagi kedalam dua inti penyelidikan utama, sesuai dengan tujuan utama dari analisis, yaitu: interpretasi dan prediksi

(Vercilles, 2009).

1. Interpretasi

Tujuan interpretasi adalah untuk mengidentifikasi pola yang teratur dalam data dan untuk mengekspresikan data melalui peraturan dan kriteria yang dapat dengan mudah dipahami oleh para ahli dalam domain aplikasi. Contoh; Clustering, Association Rules.

2. Prediksi

Tujuan dari prediksi adalah untuk mengantisipasi atau memprediksi nilai suatu variable random yang akan menggambarkan kondisi dimasa mendatang atau memperkirakan kemungkinan peristiwa masa depan. Contoh;

Classification, Regression, Time Series Analysis.

Berdasarkan tugas dan tujuan analisis, proses data mining dapat dibagi menjadi dua kategori utama, Tergantung pada adanya target variabel dan metode belajar (learning) yaitu antara proses belajar yang diawasi (supervised) dan tanpa pengawasan (unsupervised) (Vercilles, 2009).

1. Belajar yang diawasi (supervised learning)

Dalam analisis supervised learning, atribut target / label menggambarkan kelas yang dimiliki setiap catatan. Atau dengan kata lain metode belajar dengan adanya latihan (training) dan pelatih/label. Contoh: Regresi, analisa Deskriminan, Artificial Neural Network dan Support Vektor Machine. 2. Belajar tanpa pengawasan (unsupervised learning).

Tanpa pengawasan analisis belajar tidak dipandu oleh atribut target / label. Oleh karena itu, data mining dalam hal ini ditujukan untuk menemukan pola berulang dan kedekatan dalam kumpulan data. Atau dengan kata lain metode belajar tanpa adanya latihan (training) dan pelatih / label. Contoh

clustering dan Self Organization Map (SOM).

Data Mining merupakan metode pengolahan data berskala besar oleh karena

itu Data Mining ini memiliki peranan penting dalam bidang industri, keuangan,

cuaca, ilmu dan teknologi. Secara umum kajian Data Mining membahas metode- metode seperti, clustering, klasifikasi, regresi, seleksi variable, dan market basket

analisis. (Santosa,2007). Data Mining dibagi menjadi beberapa kelompok

berdasarkan tugas yang dapat dilakukan, yaitu (Paulanda, 2012) : 1. Deskripsi (Description)

Terkadang penelitian analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup

profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.

2. Estimasi (Estimation)

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya.

3. Prediksi (Prediction)

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan penelitian adalah :

a. Prediksi harga beras dalam tiga bulan yang akan datang.

b. Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikkan.

Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi. 4. Klasifikasi (Classification)

Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang dan pendapatan rendah.

Berikut contoh dari Klasifikasi:

a. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan.

b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk.

c. Mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit apa.

5. Pengklusteran (Clustering)

Pengklusteran merupakan pengelompokkan record, pengamatan atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan record-

record dalam cluster lain. Pengklusteran berbeda dengan klasifikasi yaitu

tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal.

Contoh pengclusteran dalam bisnis dan penelitian adalah :

a. Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar.

b. Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam keadaan baik atau mencurigakan.

c. Asosiasi (Assosiation)

d. Tugas asosiasi dalam Data Mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah :

a. Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah

dibeli secara bersamaan.

b. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar.

c. Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons posistif terhadap penawaran upgrade

layanan yang diberikan. 2.2. Proses Data Mining

Berikut ini adalah langkah-langkah dalam perancangan proses model pembelajaran teknik Data Mining, ditunjukan pada gambar 2.1

Gambar 2.1. Tahapan KDD pada Data Mining (Han, et al., 2006) Menurut Han, et al. (2006), KDD meliputi iterative sequence sebagai berikut.

 Data Cleaning

Pada tahap ini, dilakukan kegiatan membuang data yang tidak konsisten

dan bersifat noise dari data yang terdapat di berbagai basis data yang mungkin berbeda format maupun platform. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak

(tipografi).

 Data Integration

Menyatukan sumber data yang tersebar/terpecah sehingga dikumpulkan menjadi data warehouse.

 Data Selection

Data yang ada dalam data warehouse kemudian direduksi untuk mendapatkan hasil yang akurat, yaitu data yang relevan dengan tugas analisa dikembalikan ke dalam database. Metode seleksi pada data mining

a. Sampling, adalah seleksi subset representatif dari populasi

data yang besar.

b. Denoising, adalah proses menghilangkan noise dari data

yang akan ditransformasikan

c. Feature extraction, adalah proses membuka spesifikasi

data yang signifikan dalam konteks tertentu.

 Data Transformation

Data berubah atau bersatu menjadi bentuk yang paling tepat untuk mining

dengan ringkasan performa atau operasi. Metode transformasi pada data mining

a. Centering, mengurangi setiap data dengan rata-rata dari

setiap atribut yang ada.

b. Normalization, membagi setiap data yang di-center-ing

dengan standar deviasi dari atribut bersangkutan.

c. Scaling, mengubah data sehingga berada dalam skala tertentu.

 Knowledge Discovery (Data Mining)

Tahapan ini merupakan proses esensial dimana metode yang intelijen (algoritma data mining) digunakan untuk mengekstrak pola

data. Data yang telah ditransformasi, kemudian ditambang dengan berbagai teknik. Proses data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan fungsi- fungsi tertentu. Fungsi atau algoritma dalam data mining sangat bervariasi, dimana pemilihannya bergantung pada tujuan dan proses pencarian pengetahuan secara menyeluruh.

 Pattern Evaluation

Untuk mengidentifikasi pola yang benar-benar menarik (interestingness

measures) yang mewakili pengetahuan berdasarkan atas beberapa

tindakan yang menarik. Tahap ini merupakan bagian dari proses pencarian pengetahuan yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

 Knowledge Presentation (Graphical User Interface)

Tahap ini merupakan gambaran teknik visualisasi dan pengetahuan yang digunakan untuk memberikan pengetahuan yang telah ditambang kepada user. Pada tahap ini, dipresentasikan pengetahuan dalam bentuk yang mudah dipahami pengguna atau pihak yang berkepentingan.

Dalam dokumen Analisis Perbandingan Proses Cluster Menggunakan K- Means Clustering dan K-Nearest Neighbor pada Penyakit Diabetes Mellitus (Halaman 81-87)