BAB II TINJAUAN PUSTAKA

(1)

BAB II

TINJAUAN PUSTAKA

2.1 Penambangan Data (Data Mining)

Penambangan data (Data Mining) adalah serangkaian proses untuk menggali nilai tambah dari sekumpulan data berupa pengetahuan yang selama ini tersembunyi dibalik data atau tidak diketahui secara manual (Han, J dan Kamber, M, 2006). Proses untuk menggali nilai tambah dari sekumpulan data sering juga dikenal sebagai penemuan pengetahuan dari pangkalan data (Knowledge Discovery in

Databases = KDD) yaitu tahap-tahap yang dilakukan dalam menggali

pengetahuan dari sekumpulan data. Tahap-tahap yang dimaksud digambarkan seperti Gambar 2.1.

(2)

Gambar 2.1. Tahap-Tahap Menggali Pengetahuan Dari Pangkalan Data

Sumber : Fayyad 1996

Tahap-tahap data mining seperti yang diilustrasikan pada Gambar 2.1 dapat dijelaskan sebagai berikut:

1. Pembersihan Data (Untuk membuang data yg tidak konsisten dan Noise) 2. Integrasi data ( Penggabungan data dari berbagai sumber)

3. Transformasi data (Data diubah menjadi bentuk yang sesuai untuk teknik data mining)

4. Aplikasi Teknik Data Mining

5. Evaluasi pola yang ditemukan (untuk menemukan informasi dan pengetahuan yang menarik)

6. Presentasi pengetahuan (dengan menggunakan teknik visualisasi)

Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa

data mining adalah suatu teknik menggali informasi berharga yang terpendam

atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menaik yang sebelumnya tidak diketahui. Data mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent) machine

(3)

Data mining sering digunakan untuk membangun model prediksi/inferensi

yang bertujuan untuk memprediksi tren masa depan atau prilaku berdasarkan analisis data terstruktur. Dalam konteks ini, prediksi adalah pembangunan dan penggunaan model untuk menilai kelas dari contoh tanpa label, atau untuk menilai jangkauan nilai atau contoh yang cenderung memiliki nilai atribut. Klasifikasi dan regresi adalah dua bagian utama dari masalah prediksi, dimana klasifikasi digunakan untuk memprediksi nilai diskrit atau nominal sedangkan regresi digunakan untuk memprediksi nilai terus-menerus atau nilai yang ditentukan (Larose, 2005).

Masalah-masalah yang sesuai untuk diselesaikan dengan teknik data mining dapat dicirikan dengan (Piatetsky dan Shapiro, 2006) :

- Memerlukan keputusan yang bersifat knowledge-based - Mempunyai lingkungan yang berubah

- Metode yang ada sekarang bersifat sub-optimal - Tersedia data yang bisa diakses, cukup dan relevan

- Memberikan keuntungan yang tinggi jika keputusan yang diambil tepat

2.2. Penambangan Data Pada Pendidikan Tinggi

Penambangan data (Data Mining) adalah satu proses untuk mengungkapkan informasi atau pengetahuan yang tidak nampak dipermukaan tetapi mungkin potensial digunakan dan tersembunyi didalam data (Han J dan Kember, 2006). Aplikasi data mining pada perguruan tinggi adalah area yang baru yang disebut sebagai Educational Data Mining. Romero C dan Ventura S,(2007) telah melakukan survey pada educational data mining dari tahun 1995 – 2005 ,

(4)

mereka menyimpulkan bahwa pendidikan adalah wilayah penelitian yang sangat menjanjikan, dan cukup spesifik yang tidak dipresentasikan pada domain riset yang lain. Merceron. A dan Yacep.K (2005), memberikan sebuah studi kasus yang menggunakan data mining untuk mengidentifikasi prilaku mahasiswa yang gagal untuk memperingatkan mahasiswa sebelum ujian akhir. Data mining pada area pendidikan juga digunakan oleh Naeimeh D, et. al (2005), untuk mengidentifikasi dan kemudian meningkatkan proses pendidikan pada system pendidikan tinggi. Waiyamai K (2003), menggunakan data mining untuk membantu pengembangan kurikulum yang baru dan membantu mahasiswa teknik untuk menseleksi bidang utamanya. Sajadin S, et al (2009), menggunakan data mining untuk memonitor pencapaian dan meningkatkan prestasi akademik mahasiswa.

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005) :

1. Deskripsi (Description)

Terkadang penelitian analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau

(5)

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan

record lengkap yang menyediakan nilai dari variabel target sebagai nilai

prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya

3. Prediksi (Prediction)

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan penelitian adalah :

 Prediksi harga beras dalam tiga bulan yang akan datang

 Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikkan.

Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi

4. Klasifikasi (Classification)

Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang dan pendapatan rendah.

(6)

Contoh lain klasifikasi dalam bisnis dan penelitian adalah :

 Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan

 Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk

 Mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit apa.

5. Pengklusteran (Clustering)

Pengklusteran merupakan pengelompokkan record, pengamatan atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.

Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang

lainnya dan memiliki ketidakmiripan dengan record-record dalam cluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal.

Contoh pengklusteran dalam bisnis dan penelitian adalah :

(7)

 Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar.

 Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam keadaan baik atau mencurigakan.

6. Asosiasi (Assosiation)

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja

Contoh asosiasi dalam bisnis dan penelitian adalah :

 Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan.

 Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons posistif terhadap penawaran

upgrade layanan yang diberikan.

2.3 Algoritma Clustering (Clustering Algorithm)

Clustering (pengelompokkan data) mempertimbangkan sebuah pendekatan

penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke dalam kelompok-kelompok. Clustering membagi kumpulan data ke dalam beberapa kelompok dimana kesamaan dalam sebuah kelompok adalah lebih besar daripada diantara kelompok-kelompok (Rui Xu dan Donald 2009). Gagasan mengenai pengelompokkan data atau clustering, memiliki sifat yang sederhana

(8)

dan dekat dengan cara berpikir manusia, kapanpun kepada kita dipresentasikan jumlah data yang besar, kita biasanya cenderung merangkumkan jumlah data yang besat ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori untuk memfasilitasi analisanya lebih lanjut. Selain dari itu, sebagian besar data yang dikumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang melekat yang mengalami pengelompokkan-pengelompokkan natural (Hammuda dan Karay, 2003).

Algoritma-algoritma clustering digunakan secara ekstensif tidak hanya untuk mengorganisasikan dan mengkategorikan data, akan tetapi juga sangat bermanfaat untuk kompresi data dan konstruksi model. Melalui pencarian kesamaan dalam data, seseorang dapat mempresentasikan data yang sama dengan lebih sedikit simbol misalnya. Juga, jika kita dapat menemukan kelompok-kelompok data, kita dapat membangun sebuah model masalah berdasarkan pengelompokkan-pengelompokkan ini (Dubes dan Jain, 1988).

Clustering menunjuk pada pengelompokkan record, observasi-observasi,

atau kasus-kasus ke dalam kelas-kelas objek yang sama. Cluster adalah sekumpulan record yang adalah sama dengan satu sama lain dan tidak sama dengan record dalam cluster lain. Clustering berbeda dari klasifikasi dimana tidak ada variabel target untuk clustering. Tugas clustering tidak mencoba untuk mengklasifikasikan, mengestimasi atau mempredikasi nilai variabel target (Larose, 2005). Bahkan, algoritma clustering berusaha mensegmentasikan seluruh kumpulan data ke dalam subkelompok-subkelompok atau cluster-cluster

(9)

homogen secara relatif. Dimana kesamaan record dalam cluster dimaksimalkan dan kesamaan dengan record diluar cluster ini diminimalkan.

Clustering sering dilaksanakan sebagai langkah pendahuluan dalam proses

pengumpulan data, dengan cluster-cluster yang dihasilkan digunakan sebagai input lebih lanjut ke dalam sebuah teknik yang berbeda, seperti neural diatas dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams (Lance & Williams, 1967).

D(C1.. C1, Ck = a(i) d (Ci, Ck)+ a(k) d (Cj, Ck)+ bd (Ci, Cj)+ cld (Ci, Ck)- d (Cj, Ck

Dimana, a,b,c, adalah koefisien-koefisien yang sesuai dengan hubungan tertentu. Formula ini menyatakan sebuah metrik hubungan antara kesatuan dari dua cluster dan cluster ketiga dalam bentuk komponen-komponen yang mendasari.

)

Clustering hirarki berdasarkan metrik hubungan mengalami kompleksitas

waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi (metode-metode grafik memenuhi kondisi ini), (metode-metode-(metode-metode metrik hubungan memiliki kompleksitas (N2

Dalam linguistik, pencarian informasi dan taksonomi biner aplikasi

clustering dokumen adalah sangat membantu. Metode-metode aljabar linear, yang

didasarkan pada dekomposisi nilai singular (Singular Value Decomposition-SVD) digunakan untuk tujuan ini dalam filtering kolaboratif dan pencarian informasi (Berry & Browne, 1999). Aplikasi SVD terhadap clustering divisive hirarkhi dari kumpulan dokumen menghasilkan algroitma PDDP (Prinsipal Direction Divisive

Partitioning) (Boley, 1998). Algoritma ini membagi dua data dalam ruang Euclidean dengan sebuah hyperplane yang mengalir melalui centroid data secara

(10)

orthogonal pada eigenvector dengan nilai singular yang besar. Pembagian cara

k (konstanta) juga memungkinkan jika k nilai singular yang besar. Pembagian cara k juga memungkinkan jika k nilai singular terbesar dipertimbangkan. Divisive hirarki yang membagi dua rata-rata k terbukti (Steinbach et al. 2000) dapat dipilih untuk clustering dokumen network. karena ukuran yang besar dari banyak database yang direpresentasikan saat ini, maka sering sangat membantu untuk menggunakan analisa clustering terlebih dahulu, untuk mengurangi ruang pencarian untuk algoritma-algoritma downstream. Aktivitas clustering pola khusus meliputi langkah-langkah berikut (Dubes dan Jain, 1988) :

(I) Representasi pola (secara opsional termasuk ekstraksi dan/atau seleksi sifat)

(II) Defenisi ukuran kedekatan pola yang tepat untuk domain data (III) Clustering pengelompokkan

(IV) Penarikan data (jika dibutuhkan) dan (V) Pengkajian output (jika dibutuhkan)

Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering. Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat (fitur) adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik.

(11)

Pertimbangan dataset X yang terdiri dari point-point data (atau secara sinonim, objek-objek, hal-hal kasus-kasus, pola, tuple, transaksi) xi = (xi1, …,

xid) Є A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah

sebuah atribut A kategori numerik atau nominal. Sasaran akhir dari clustering adalah untuk menemukan point-point pada sebuah sistem terbatas dari subset k,

cluster. Biasanya subset tidak berpotongan (asumsi ini terkadang dilanggar), dan

kesatuan mereka sama dengan dataset penuh dengan pengecualian yang memungkinkan outlier. Ci adalah sekelompok point data dalam dataset X, dimana

X = Ci.. Ck.. Coutliers, Cjl.. Cj2 = 0.

2.3.1. Clustering Hirarkhi (Hierarchical Clustering)

Clustering hirarkhi membangun sebuah hirarkhi cluster atau dengan kata lain

sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node cluster mengandung cluster anak; cluster-cluster saudara yang membagi point yang ditutupi oleh induk mereka. Metode-metode clustering hirarkhi dikategorikan ke dalam agglomerative (bawah-atas) dan idivisive (atas-bawah) (Jain & Dubes, 1988; Kaufman & Russeeuw, 1990). Clustering agglomerative dimulai dengan

cluster satu point (singleton) dan secara berulang mengabungkan dua atau lebih cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua

point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut berlanjut hingga kriteria penghentian (seringkali, jumlah k yang diperlukan dari

(12)

(I) Fleksibilitas yang tertanam mengenai level granularitas (II) Kemudahan menangani bentuk-bentuk kesamaan atau jarak (III) Pada akhirnya, daya pakai pada tipe-tipe atribut apapun

Kelemahan dari clustering hirarkhi berhubungan dengan : (I) Ketidakjelasan kriteria terminasi

(II) Terhadap perbaikan hasil clustering, sebagian besar algoritma hirarkhi tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi. Untuk clustering hirarkhi, menggabungkan atau memisahkan subset dari point-point dan bukan point-point individual, jarak antara pint-point individu harus digeneralisasikan terhadap jarak antara subset.

Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik hubungan yang digunakan secara signifikan mempengaruhi algortima hirarkhi, karena merefleksikan konsep tertentu dari kedekatan dan koneksitas. Metrik hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk hubungan tunggal, hubungan rata-rata dan hubungan sempurna. Semua metrik hubungan

2.3.2. Clustering Partisional (Partitional Clustering)

Dengan mengetahui objek-objek database N, sebuah algoritma clustering partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan kriteria clustering, seperti minimasi jumlah jarak kuadrat dari rata-rata dalam setiap cluster.

(13)

Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas tinggi, karena menyebutkan semua pengelompokkan yang memungkinkan dan berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya.

Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk kumpulan point-point awal yang berbeda (yang dianggap sebagai representative) dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau tidak. Algoritma-algoritma clustering partisional berusaha memperbaiki secara local sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau jarak, mengurutkan hasil, dan mengangkat nilai yang mengoptimalkan kriteria. Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy.

Sebuah pendekatan terhadap pembagian data adalah mengambil sudut pandang konseptual yang mengidentifikasikan cluster dengan model tertentu yang parameternya tidak diketahui harus ditemukan. Model-model probabilistik menganggap bahwa data berasal dari campuran beberapa populasi yang didistribusi dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari metode-metode probabilitas adalah daya interpretasi dari cluster-cluster yang dibuat. Dengan memiliki representasi cluster yang tepat juga memungkinkan penghitungan yang tidak ekspensif dari ukuran-ukuran intra-cluster dari kesesuaian yang memberikan fungsi objektif yang tergantung pada sebuah pembagian (partition). Tergantung pada bagaimana representative dibuat,

(14)

algoritma-algoritma partitioning optimasi literative dibagi lagi ke dalam metode-metode K-medoids dan K-means.

2.4 Analisis Cluster

Analisis cluster adalah suatu analisis statitik yang bertujuan memisahkan obyek kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk sekecil mungkin (Prayudho, 2008).

Tujuan Analisis Cluster :

1. Untuk mengelompokkan objek-objek (individu-individu) menjadi kelompok-kelompok yang mempunyai sifat yang relatif sama (homogen)

2. Untuk membedakan dengan jelas antara satu kelompok (cluster) dengan kelompok lainnya.

Adapun manfaat Analisis Cluster sebagai berikut :

1. Untuk menerapkan dasar-dasar pengelompokkan dengan lebih konsisten

2. Untuk mengembangkan suatu metode generalisasi secara induktif, yaitu pengambilan kesimpulan secara umum dengan berdasarkan fakta-fakta khusus.

3. Menemukan tipologi yang cocok dengan karakter obyek yang diteliti 4. Mendeskripsikan sifat-sifat / karakteristik dari masing-masing kelompok

(15)

1. Merumuskan permasalahan

2. Memilih ukuran jarak atau kesamaan 3. Memilih prosedur pengklusteran 4. Menetapkan jumlah cluster 5. Interpretasi dan profil dari cluster 6. Menaksir reliabilitas dan validitas

2.5 Metode Kernel

Machine learning untuk penelitian pengolah sinyal sangat dipengaruhi oleh

metode yang popular kernel Mercer (Christianini & Taylor, 2000). Point utama dalam metode kernel adalah apa yang disebut “kernel trick”, yang memungkinkan penghitungan dalam beberapa inner product, kemungkinan dengan dimensi yang tidak terbatas, ruang fitur Anggaplah xi dan xj

k (x

adalah dua point data ruang input. Jika fungsi kernel k(…) memenuhi kondisi Mercer maka :

i , xj) = Φ(xi).Φ(xj

Dimana, (x

) (2.1)

i,xj

Metode-metode Kernel adalah algoritma yang secara implisit melaksanakan, melalui penggantian inner product dengan Kernel Mercer yang tepat, sebuah pemetaan nonlinear dari data input ke ruang fitur berdimensi tinggi (Vapnik, ) menunjukkan inner product dan Φ(.) melambangkan pemetaan non-linier dari ruang input kepada fitur kernel. Kernel trick memungkinkan pelaksanaan dari algoritma pembelajaran, yang dinyatakan dalam bentuk inner product ruang fitur kernel.

(16)

1995). Metode-metode kernel yang sangat disupervisi telah dikembangkan untuk menyelesaikan masalah-masalah klasifikasi dan regresi.

K-means adalah algoritma unsupervised learning yang membagi kumpulan data ke dalam sejumlah cluster yang dipilih dibawah beberapa ukuran-ukuran optimisasi. Sebagai contoh, kita sering ingin meminimalkan jumlah kuadrat dari jarak Euclidean antara sampel dari centroid. Asumsi di belakang ukuran ini adalah keyakinan bahwa ruang data terdiri dari daerah elliptical yang terisolasi. Meskipun demikian, asumsi tersebut tidak selalu ada pada aplikasi spesifik. Untuk menyelesaikan masalah ini, sebuah gagasan meneliti ukuran-ukuran lain, misalnya kesamaan kosinus yang digunakan dalam pencarian informasi. Gagasan lain adalah memetakan data pada ruang baru yang memenuhi persyaratan untuk ukuran optimasi. Dalam hal ini, fungsi kernel merupakan pilihan yang baik.

2.6 Fungsi Kernel

Ada kalanya tidak cukup bagi machine learning untuk bekerja dalam ruang input karena asumsi di belakang mesin tidak menyesuaikan pola riil dari data. Sebagai contoh, SVM (support vector machine) dan Perceptron memerlukan data yang tidak dapat dipisahkan secara linier, sedangkan K-means dengan jarak Euclidean mengharapkan data terdistribusi ke dalam daerah elliptical. Ketika asumsi tersebut tidak digunakan, maka kita dapat menggunakan beberapa jenis transformasi pada data, dengan memetakan mereka pada ruang baru dimana machine learning dapat digunakan. Fungsi Kernel memberikan kepada kita sebuah alat untuk

(17)

Anggaplah kita diberikan sekumpulan sampel x1, x2, x3,…, xN, dimana xi ɛ

RD, dan fungsi pemetaan Φ yang memetakan x1 dari ruang input RD

k (x

pada ruang baru Q. Fungsi kernel didefenisikan sebagai dot product dalam ruang baru Q :

i , xj) = Φ(xi).Φ(xj) (2.2)

Sebuah fakta penting mengenai fungsi kernel adalah bahwa fungsi ini dibangun tanpa mengetahui bentuk kongkrit dari Φ, yaitu transformasi yang didefinisikan secara implicit. Tiga fungsi kernel yang secara umum tercantum di bawah ini : Polynomial k ( xi, xj) = (xi . xj + 1 )d Radial k ( x (2.3) i, xj) = exp (-r || xi – xj ||2 Neural k ( x ) (2.4) i, xj) = tanh (axi . xj

Kelemahan utama dari fungsi Kernel meliputi, pertama beberapa sifat dari ruang baru hilang, misalnya, dimensionalitas dan tingkatan nilainya, sehingga kekurangan bentuk eksplisit untuk Φ. Kedua, penentuan bentuk kernel yang tepat untuk kumpulan data tertentu harus diwujudkan melalui eksperimen-eksperimen.

+ b) (2.5)

Bahkan, biaya penghitungan dan penyimpanan meningkat menurut margin luas. Prinsip ini menjamin bahwa fungsi kernel dapat selalu diexpresikan sebagi dot product diantara dua input vector dalam beberapa ruang dimensi yang tinggi.

(18)

Gambar 2.2. Proses Pemetaan Kernel

2.7. KERNEL K-MEANS CLUSTERING

Clustering adalah salah satu metode yang terkenal dalam data mining, yang digunakan untuk mendapatkan kelompok-kelompok dari data, dimana setiap objek data akan dikelompokkan kedalam satu kelompok berdasarkan kemiripannya, dan yang lainnya akan dikelompokan pada kelompok yang lain.( Han,J. and Kamber,M, 2006)

K-Means Clustering merupakan teknik dalam klaster data yang sangat terkenal karena kecepatannya dalam mengklasterkan data. Akan tetapi K-Means Clustering memiliki kelemahan didalam memproses data yang berdimensi banyak. Khususnya untuk masukan yang bersifat non-linierly separable. K-Means clustering juga tidak mampu mengrupkan data yang bertipe kategorikal dan juga data campuran (numeric dan kategorikal). Kenyataan didunia nyata data yang tersedia atau yang diperoleh memiliki dimensi yang banyak dan juga bersifat campuran. Untuk mengatasi permasalahan ini, telah banyak diusulkan oleh para peneliti metode-metode yang dapat mengatasi kelemahan ini, salah satu

Input Space Feature Space

) ( ) ( ) , (x1 x2 x1 x2 k = Φ • Φ

(19)

Kernel K-Means Clustering, pada prinsipnya mirip dengan K-Means tradisional, letak perbedaan yang mendasar ada pada perubahan masukannya. Dalam Kernel K-Means data point akan dipetakan pada dimensi baru yang lebih tinggi menggunakan fungsi non-linier sebelum dilakukan proses clustering (Cristianini N, Taylor,J.S.2000) Kemudian Kernel K-Means akan mempartisi data menggunakan linier separator pada space yang baru.

Metode kernel pertama dan barangkali yang paling tepat adalah Support

Vector Machine (SVM) (Burges, 1998), yang mengoptimalkan kriteria margin

maksimum dalam ruang fitur kernel. Algoritma k-means barangkali telah menjadi teknik clustering popular sejak diperkenalkan dalam era 1960an. Ini memaksimalkan jarak Euclidean kuadrat antara pusat-pusat cluster. Meskipun demikian, telah diketahui bahwa ini hanya optimal untuk (yang dapat dipisahkan secara linear) cluster terdistribusi Gaussian. Metode yang berbeda untuk melaksanakan algoritma ini dalam ruang kernel yakni kernel k-means telah diperoleh. Dalam (Zang dan Alexander, 2006) teknik optimasi stochastic dikembangkan dengan menggunakan kernel trick, sedangkan dalam (Girolami, 2002) pemetaan data actual diperkirakan melalui eigenvector dari apa yang disebut matriks kernel.

Secara eksperimental, penelitian-penelitian ini memperlihatkan bahwa keterbatasan k-means bisa telah teratasi, dan hasil yang baik dicapai juga untuk kumpulan-kumpulan data yang memiliki batasan-batasan cluster nonlinear. Motivasi untuk keinginan melaksanakan K-means dalam ruang fitur kernel dinyatakan secara longgar sebagai “masalah kemampuan memisahkan nonlinear

(20)

yang dapat dielakkan oleh kelas melalui pemetaan data yang diamati pada ruang data berdimensi yang lebih tinggi dengan cara nonlinear sehingga setiap cluster untuk setiap kelas membentang ke dalam bentuk sederhana”. Meskipun demikian, tidak jelas bagaimana kernel K-means berhubungan dengan sebuah operasi pada kumpulan data ruang input. Juga tidak jelas cara menghubungkan lebar kernel dengan sifat-sifat kumpulan data input. Beberapa pemikiran yang disebutkan pada point-point ini telah dibuat dalam (Girolami, 2002; Cristianini & Taylor, 2000).

Biasanya perluasan dari k-means ke kernel k-means direalisasi melalui pernyataan jarak dalam bentuk fungsi kernel (Girolami, 2002; Muller et al 2003). Meskipun demikian, implementasi tersebut mengalami masalah seris seperti biaya

clustering tinggi karena kalkulasi yang berulang dari nilai-nilai kernel, atau

memori yang tidak cukup untuk menyimpan matriks kernel, yang membuatnya tidak dapat sesuai untuk corpora yang besar.

Anggaplah kumpulan data memiliki N sampel x1, x2,…xN. Algoritma

K-means bertujuan untuk membagi sampel N ke dalam cluster K, C1, C2, …, CK,

dan kemudian mengembalikan pusat dari setiap cluster, m1, m2,…,mk sebagai

representative dari kumpulan data. Selanjutnya kumpulan data N-point dipadatkan ke dalam “code book” point K. Algoritma K-means clustering mode batch yang menggunakan jarak Euclidean bekerja sebagai berikut :

Algoritma 1

(21)

terdekat, yang membentuk cluster K. yaitu menghitung nilai fungsi indicator δ (xi, Ck), (1 < k < K).

δ (xi, ck    < ≠ otherwise k j all for m x D m x D i k i j , 0 ) , ( ) , ( , 1 ) =

Langkah 3 Hitunglah pusat baru mk untuk setiap cluster C

M k k

∑

₌ n i i k i k x C x c 1 ( , ) 1 _δ =

Dimana C adalah jumlah sampel dalam C_k k

k

C =

∑

n_i₌₁δ (xi,Ck)xi

Langkah 4 menghasilkan mk

Isu utama yang memperluas k-means tradisional ke kernel k-means adalah penghitungan jarak dalam ruang baru. Anggaplah u

(1 < k < K)

i = Φ (xi) menunjukkan

transformasi x1. Jarak Euclidean antara ui dan uj

D ditulis sebagai : 2 (ui, uj) = || Φ (xi) – Φ (xj) || = Φ 2 2 (xi) -2 Φ (xi) Φ (xj) + Φ2(xj = k (x ) i , xi) -2 k (xi , xi) + k (xj , xj Anggaplah z ) (2.6) k Z

adalah pusat cluster dalam ruang yang ditransformasikan dimana,

k

∑

₌ N i i k i k u C u c 1 ( , ) 1 _δ = (2.7)

Dimana δ (u_i,C_k)adalah fungsi indikator. Jarak antara ui dan zk

D dinyatakan sebagai berikut : 2 {ui,zk 2 1 ( , ) 1

∑

= − N i i k i k i u C u c u δ } =

(22)

= k (xi , xi) + f (xi , Ck) + g (Ck Dimana, ) f (xi, Ck

∑

₌ N i j k i j k x x k C u c 1 ( , ) ( , ) 2 _δ ) = (2.8)

Perbedaan utama antara kernel k-means dengan versi tradisional k-means ada di langkah 4, dalam algoritma Kernel K-means. Karena cluster dalam ruang yang ditransformasikan tidak dapat dinyatakan secara eksplisit, maka harus memilih pseudo centre. Dengan menggunakan Jarak Euclidean pada tradisional k-means, diperoleh kernel berdasarkan algoritma k-means sebagai berikut :

Algoritma 2

Langkah 1 Tentukan δ (xi, Ck) (1< I < N, 1 < k < K) dengan nilai awal,

yang membentuk cluster initial K C1, C2,…, C

Langkah 2 Untuk setiap cluster C

k

k hitunglah |Ck| dan g (Ck

Langkah 3 Untuk setiap sampel latihan x

)

i dan cluster Ck, hitunglah

f(xi, Ck) dan kemudian tentukan xi

δ (x

pada cluster terdekat

i , Ck = )      ≠ + < + lain yang k j untuk C g C x f C g C x f _i _k _k _i _j _j , 0 ) ( ) , ( ) ( ) , ( , 1

Langkah 4 Untuk setiap cluster Ck, pilih sampel yang terdekat dengan

(23)

Dalam persamaan faktor k (xi, xj) diabaikan karena tidak berkontribusi untuk

menentukan cluster terdekat. Perbedaan utama antara kernel k-means dan versi tradisionalnya ada dalam langkah 4.

2.8. DECISION TREE

Decision tree merupakan salah satu metode klasifikasi yang menggunakan

representasi struktur pohon (tree) dimana setiap node mempresentasikan atribut, cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas.

Node yang paling atas dari decision tree disebut sebagai root

Decision tree merupakan metode klasifikasi yang paling popular

digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang dibangun mudah untuk dipahami.

Pada decision tree terdapat 3 jenis node, yaitu :

a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output atau mempunyai output lebih dari satu.

b. Internal Node, merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua.

c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output.

(24)

2.9. ALGORITMA C 4.5

Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan training data yang telah disediakan. Algoritma C 4.5 merupakan pengembangan dari ID3. Beberapa pengembangan yang dilakukan pada C 4.5 adalah sebagai antara lain bisa mengatasi missing value, bisa mengatasi continue

data, dan praining.

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari

record pada kategori tertentu. pohon keputusan juga berguna untuk

mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variable input dengan sebuah variable target.

Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain.

Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogeny dengan memperhatikan pada variable tujuannya. Sebuah pohon keputusan mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan

(25)

Variabel tujuan bisaanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probability dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.

Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain ID3, CART, dan C4.5 (Larose, 2006).

Data dalam pohon keputusan bisaanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai criteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur.

Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan (Basuki dan Syarif, 2003).

Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule (Basuki dan Syarif, 2003).

Berikut ini algoritma dasar dari C 4.5 :

Input : sampel training, label training, atribut

(26)

2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)

3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)

4. Jika atribut kosong, berhenti dengan suatu bohon dengan suatu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label training

5. Untuk yang lain, Mulai

a. A ---- atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)

b. Atribut keputusan untuk simpul akar ---- A c. Untuk setiap nilai, vi, yang mungkin untuk A

1) Tambahkan cabang di bawah akar yang berhubungan dengan A = vi

2) Tentukan sampel Svi sebagai sbset dari sampel yang mempunyai nilai vi untuk atribut A

3) Jika sampel Svi kosong

i. Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training

ii. Yang lain tambah cabang baru di bawah cabang yang sekarang C 4.5 (sampel training, label training, atribut – [A].

d. Berhenti

Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sma dengan jumlah path yang mungkin dapat dibangun dari root sampai leaf node.

Tree Praining dilakukan untuk menyederhanakan tree sehingga akurasi

dapat bertambah. Pruning ada dua pendekatan, yaitu :

a. Pre-praining, yaitu menghentian pembangunan suatu subtree lebih awal (yaitu dengan memutuskan untuk tidak lebih jauh mempartisi data training). Saat seketika berhenti, maka node berubah menjadi leaf

(node akhir). Node akhir ini menjadi kelas yang paling sering muncul

(27)

b. Post-praining, yaitu menyederhanaan tree dengan cara membuang beberapa cabang subtree setelah tree selesai dibangun. Node yang jarang dipotong akan menjadi leaf (node akhir) dengan kelas yang paling sering muncul.

Secara umum algoritma C 4.5 untuk membangun pohon keputusan adalah sebagai berikut :

1. Pilih atribut sebagai akar

2. Buat cabang untuk masing-masing nilai 3. Bagi kasus dalam cabang

4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama

Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti tertera dalam Rumus I (Craw, 2005).

Gain(S,A) = Entropy(S) –

∑

₌1 *Entropy(Si)

S Si n i Dengan S : Himpunan Kasus A : Atribut

N : Jumlah Partisi atribut A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S

(28)

Sedangkan perhitungan nilai Entropy dapat dilihat pada rumus 2 berikut (Craw, 2005) : Entropy(A) =

∑

n_i₌₁−pi*log₂ pi Dengan S : Himpunan Kasus A : Fitur n : Jumlah partisi S

pi : Proporsi dari Si terhadap S

Riset-Riset Terkait

Terdapat beberapa riset yang telah dilakukn oleh banyak peneliti berkaitan dengan domain pendidikan, seperti yang akan dijelaskan di bawah ini.

Yu et al (2010) dalam risetnya menjelaskan mengenai sebuah pendekatan

data mining dapat diaplikasikan untuk meneliti faktor-faktor yang mempengaruhi

tingkat daya ingat mahasiswa. Oyelade et al. (2010) dalam risetnya mengimplementasikan algoritma k-means clustering dikombinasikan dengan deterministik model untuk menganalisa hasil prestasi mahasiswa pada perguruan tinggi swasta

Nugroho, (2008) menjelaskan dalam risetnya mengenai Implementasi

decision tree berbasis analisis teknikal untuk pembelian dan penjualan saham,

menyimpulkan system pendukung keputusan decision tree yang dibangun berdasarkan analisis teknikal mampu memberikan gambaran saat saham

(29)

pergerakan trend ini bersifat spekulasi namun cukup mampu memberikan keuntungan.

Sunjana (2010b) menjelaskan dalam risetnya tentang klasifikasi data nasabah sebuah asuransi menggunakan algoritma C 4.5, berikut adalah kesimpulan yang dapat diambil dari data nasabah asuransi setelah dilakukan analisis menggumakan metode algoritma C 4.5 :

1. Aplikasi dapat menyimpulkan bahwa rata-rata nasabah memiliki status L dikarenakan pembayaran premi yang melebihi 10% dari penghasilam 2. Dengan persentase atribut premi dasar dan penghasilan, maka dapat

diketahui rata-rata status nasabah memiliki nilai P atau L

Bhargavi at al (2008) menjelaskan dalam risetnya tetang menguraikan pengetahuan menggunakan aturan dengan pendekatan decision tree.

Al-Radaideh et al (2006) menjelaskan dalam risetnya tentang pemanfaatan

data mining terhadap data mahasiswa menggunakan decision tree.

Adeyemo dan Kuye (2006) menjelaskan dalam risetnya untuk memprediksi

kinerja mahasiswa di bidang akademik menggunakan algoritma decision tree. Dedy Hartama (2011) menjelaskan model aturan keterhubungan data mahasiswa menggunakan Algoritma C 4.5 untuk meningkatkan indeks prestasi.

2.10. Persamaan dengan Riset-Riset Lain

Kruck dan Lending (2003) dalam penelitiannya menjelaskan sebuah model untuk memprediksi kinerja di tingkat perguruan tinggi dalam mata kuliah pengantar sistem informasi.

(30)

Ogor (2007) dalam penelitiannya menggunakan teknik data mining yang digunakan untuk membangun prototype Penilaian Kinerja Monitoring Sistem (PAMS) untuk mengevaluasi kinerja mahasiswa.

Sajadin et al (2009) menggunakan teknik data mining dalam pemantauan dan memprediksi peningkatan prestasi mahasiswa berdasarkan minat, prilaku belajar, pemanfaatan waktu dan dukungan orang tua di perguruan tinggi.

2.11. Perbedaan dengan Riset-Riset Lain

Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik perbedaan dengan riset yang akan dilakukan ini :

Analisa dalam proses pengambilan keputusan dalam melakukan tindakan preventif terhadap mahasiswa yang cenderung gagal kuliah atau drop-out, diperlukan sebuah model profil mahasiswa yang dapat menggambarkan situasi ril mahasiswa tersebut pada saat mengikuti perkuliahan, selanjutnya bagaimana model ini dapat dijadikan sebagai indikator untuk deteksi dini kondisi mahasiswa yang cenderung drop-out.

Pada penelitian ini hasil akhir yang diharapkan dengan analisa model profil mahasiswa dan model prediksi yang diperoleh dari penelitian ini juga dapat dipergunakan oleh institusi-institusi pendidikan tinggi yang memiliki program sarjana, sebagai sistem informasi pendukung dalam proses pengambilan keputusan untuk melakukan tindakan preventif terhadap mahasiswa diploma tiga yang cenderung drop-out.

(31)

2.12. Kontribusi Riset

Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan para dosen untuk lebih mengenal situasi para mahasiswanya, dan dapat dijadikan sebagai pengetahuan dini dalam proses pengambilan keputusan untuk tindakan preventif dalam hal mengantisipasi mahasiswa drop-out, untuk meningkatkan prestasi mahasiswa, untuk meningkatkan kurikulum, meningkatkan proses kegiatan belajar dan mengajar dan banyak lagi keuntungan lain yang bisa diperoleh dari hasil penambangan data yang telah ditentukan oleh perguruan tinggi.

Beberapa kemungkinan lain mungkin dianggap penting adalah dosen wali dapat menggunakan informasi yang diberikan dalam mengambil beberapa tindakan untuk meningkatkan kinerja mahasiswa dalam meningkatkan predikat kelulusan.

Pembuat keputusan bisa menggunakan model profil mahasiswa yang potensial drop out menggunakan Teknik kernel k-mean clustering dan Decision tree untuk meningkatkan kualitas pengambilan keputusan. Penelitian ini memperkenalkan aplikasi metode Kernel K-Means Clustering untuk lembaga pendidikan tinggi