LANDASAN TEORI
2.2 Menambang Data (Data Mining)
Pada masa sekarang ini, informasi menjadi sumber daya yang memegang pengaruh penting dalam berbagai hal. Banyak organisasi yang telah mengumpulkan dan menyimpan data yang berskala besar. Namun, sebagian dari organisasi tersebut tidak mendapatkan adanya informasi berharga yang tersembunyi dari banyaknya data tersebut, sehingga organisasi-organisasi tersebut memilih untuk menggunakan teknologi informasi untuk memanajemen data-data yang telah tertimbun. Pada dasarnya data mining adalah proses yang menggunakan alat (tools) untuk mengekstraksi atau menggali informasi-informasi yang berguna dari dataset yang besar; data mining adalah sebuah proses untuk menggali informasi di dalam database yang menghasilkan sesuatu yang berguna dari data tersebut. (Tipawan & Kulthida, 2017).
Banyak nama yang umumnya digunakan pada penyebutan data mining seperti knowledge extraction (KE), Knowledge discovery in databases (KDD), data dredging, data/pattern analysis, business intelligence (BI) dan data archaeology (Hermawati, 2009). Satu diantara banyak kemampuan pada data mining yang merupakan andalan yaitu menemukan informasi berupa transaksi keuangan yang
10
berharga pada database yang sangat banyak dan beberapa fungsi dari teknik data mining ini dipakai untuk keperluan:
1. Meramalkan kecendrungan dan juga sifat-sifat dari transaksi bisnis, dimana data mining dapat mengotomatiskan proses mendapatkan data dan informasi serta meramalkan pola-pola transaksi di dalam kumpulan data yang besar.
2. Kemampuannya untuk melihat pola-pola yang kasat mata, yang mana data mining melihat sampai pada semua informasi yang dimiliki institusi atau perusahaan pada sumber data dan selanjutnya mengidentifikasi semua pola-pola yang sebelumnya tidak ditemukan pada satu kali pencarian.
3. Data mining dapat juga berfungsi untuk membantu pembuatan keputusan dengan cepat pada saat terjadi kritis yang terutama penetapan sebuah strategi perusahaan.
Adapun beberapa pengertian data mining sebagai berikut:
1. Data mining merupakan pekerjaan untuk mencari tahu sebuah informasi yang berarti dari sebuah kecendrungan dan kondisi rutin yang teracak, dimana proses data mining adalah menseleksi pola-pola dan kecendrungan yang ada dengan memilah-milah data yang mempunyai ukuran luas yang ada dalam basisdata, memakai teknologi identifikasi poladan teknik matematis serta statistika.
2. Data mining merupakan kumpulan dari proses-proses yang mengambil kembali atau menggali ilmu yang diperlukan bagi institusi maupun perusahaan.
3. Data mining adalah sebuah pekerjaan menganalisa ataupun memperhatihan data dari kumpulan data untuk menemukan kembali informasi hubungan yang tidak diduga yang berguna untuk meringkas atau merangkum data agar dimengerti dan berguna bagi pemiliknya.
Beberapa contoh dari data mining dimana aplikasinya yang banyak dipakai pada bidang banking, marketing maupun perusahan penjamin. Aplikasi data mining ini yang umumnya dipakai pada bidang marketing adalah bertujuan untuk mengidentifikasi pembelian atau para pengguna yang dapat menemukan relasi atau keterhubungan karakteristik zona-zona kepada pelanggan, selain itu juga dapat memprediksikan respon penawaran yang disampaikan via surat.
Contoh aplikasi dari data mining yaitu aplikasi data mining yang umum dipakai di bidang banking yaitu mampu menangkap pola-pola manipulasi kartu kredit dan mendeteksi nilai kesetiaan seorang pelanggan pada sebuah perusahaan dagang. Data mining juga sering digunakan pada bidang asuransi misalnya menganalisis klaim dalam memprediksi pelanggan apakah akan membeli produksi terbaru dari perusahaan.
Pada bidang kesehatan, data mining mempunyai kekuatan besar dalam membantu proses analisis data pada sebuah rumah sakit dengan mempergunakan informasi data dan menganalisa untuk mendeteksi pelayanan yang terbaik dalam hal peningkatan perawatan yang disajikan dan data mining juga mampu mengurangi biaya tinggi yang berdampak baik bagi konsumen. Pendekatan yang umumnya dilakukan dipelayanan kesehatan yaitu informasi database dengan banyak dimensi, learning machines, soft computing, statistika dan presentasi data. Setelah menjalani pembelajaran menggunakan data mining, maka dapat melakukan prediksi jumlah pasien kedalam setiap kategorial. Perkembangan yang perlu adalah diaman pasien dipastikan akan mendapat perawatan yang tepat pada tempat yang tepat dan pada waktu yang tepat juga.
Dan bidang Educational Data Mining (EDM), yang berhubungan dengan metode pengembangan ilmu pengetahuan dari informasi yang berasal dari bidang pendidikan dimana tujuan utamanya dari bidang EDM yaitu mengidentifikasi dan memprediksi kebiasaan belajar pada siswa dimasa yang akan datang dan memajukan pengetahuan ilmiah tentang pembelajaran. Data mining ini dapat dipakai pada sebuah perusahaan atau lembaga pendidikan yang memerlukannya dalam pengambilan keputusan dengan akurasi tinggi serta juga mampu melakukan prediksi kebiasaan belajar para siswa dengan harapan institusi dapat lebih fokus kepada arah tujuan pengajaran tersebut dan bagaimana mekanisme mengajar yang dilakukan kepada siswa. Adapun pola belajar siswa yang sudah di analisa oleh data mining akan mampu diambil serta digunakan dalam pengembangan teknik mengajar mereka (Madni et al, 2017).
2.3 Clustering
Clustering adalah proses memisahkan sekumpulan data atau objek ke dalam kelompok
12
atau cluster yang lebih kecil berdasarkan kesamaan ciri yang dimiliki (Serapiao et al., 2016). Terdapat berbagai algoritma clustering yang dapat digunakan, tetapi secara umum dapat dikelompokkan menjadi beberapa kategori sebagai berikut (Rokach and Maimon, 2005).
1. Partitioning Methods. Diberikan himpunan dari n objek. Metode partisi akan mengelompokkan k partisi dari data. Dimana setiap partisi merepresentasikan sebuah cluster dan k ≤ n. Setiap objek yang ada merupakan bagian dari sebuah cluster. Beberapa algoritma yang sering dipakai, yang termasuk dalam kategori partitioning methods adalah algoritma K-Means dan K-Medoids.
2. Hierarchical Methods. Pada metode berbasis hirarki ini akan dibangkitkan hierarchical decomposition (dekomposisi berurutan) dari himpunan data objek. Berbeda dengan metode partitioning yang mengelompokkan data ke dalam kelompok-kelompok. Metode hierarchical mengelompokkan data ke dalam hirarki atau tree dari cluster. Representasi data dalam bentuk hirarki adalah diperlukan untuk keperluan penyajiandan visualisasi data. Strategi pengembangan dari metode ini dapat dibagi menjadi 2 jenis yaitu Agglomerative (Bottom-Up) dan Devisive (Top-Down). Metode Agglomerative merupakan metode yang sering digunakan dan terdiri atas metode: Single Linkage, Complete Linkage, dan Average Linkage.
3. Density-Based Methods metode Density-Based ini merupakan metode yang dikembangkan berdasarkan density (kepadatan) tertentu dimana pada metode ini cluster dianggap sebagai suatu daerah yang berisi objek-objek yang padat atau penuh sesak, yang dipisahkan oleh area yang memiliki kepadatan rendah (merepresentasikan noise). Adapun beberapa algoritma yang termasuk metode Density-Based adalah DBSCAN (Density Based Spatial Clustering of Application with Noise) serta OPTICS (Ordering Points to Identify the Clustering Structure).
4. Grid-Based Methods, pada metode ini penempatan ruang objek ke dalam jumlah berhingga sel yang membentuk struktur grid dimana sehingga dikatakan juga bahwa metode ini menggunakan multi resolution pada struktur data grid (jaringan). Salah satu algoritma yang mendasarkan pada metode ini adalah STING (Statistical Information Grid).
Tujuan utama dari metoda clustering adalah mengelompokkan banyak informasi atau objek-objek ke dalam cluster (group) sehingga untuk setiap clusterada berisi informasi yang hampir mirip atau semirip mungkin, yang berarti data atau obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan objek dalam cluster - cluster yang lain (Santosa, 2007).
Gambar 2.1 Contoh Proses Clustering (Sumber: Nugraheni, 2011)
Ada dua metode Clustering yang dikenal saat ini yaitu Hierarchical Clustering dan Partitioning Clustering. Pada metode Hierarchical Clustering terdiri dari Complete Linkage Clustering, Single Linkage Clustering, Average Linkage Clustering serta Centroid Linkage Clustering, sedangkan pada metode Partitioning terdiri dari K-Means serta Fuzzy K-K-Means (Paramartha, 2017).
Pada metode Hierachical Clustering yang merupakan suatu metode pengelompokan informasi yang akan diawali dengan mengelompokkan dua ataupun banyak informasi atau objek yang mempunyai sifat yang paling mirip, lalu proses pengelompokan dilanjutkan ke data atau objek lain yang mempunyai kemiripan kedua, demikian selanjutnya sehingga cluster akan membangun pola-pola pohon yang mana terdapat batasan-batasan atau level-level yang jelas diantara sesama objek maupun informasi tersebut, dari yang memiliki kemirip tertinggi sampai dengan yang memiliki kemiripan rendah. Secara alamiah pada akhirnya akan terbentuk sebuah kelompok atau cluster dimana digunakan sebuah dendogram yang berguna untuk membantu menjelaskan proses hierarki tersebut (Santoso, 2010).
14
Selanjutnya pada metode Non Hierarchical Clustering proses awal dimulai dengan menentukan terlebih dahulu jumlah cluster yang diperlukan misalnya dua cluster, tiga cluster atau jumlah yang lain. Lalu setelah jumlah cluster ditentukan, maka proses cluster dimulai tanpa mengikuti proses hierarki dimana metode ini disebut dengan K-Means Clustering (Santoso, 2010).