Landasan Teori - LANDASAN TEORI DAN KERANGKA PEMIKIRAN

BAB II LANDASAN TEORI DAN KERANGKA PEMIKIRAN

2.2 Landasan Teori

Data mining adalah suatu proses yang menggunakan teknik statistik, matematika, kecerdasan tiruan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database yang besar. Data mining merupakan proses iterative dan interaktif untuk menemukan pola atau model baru yang sempurna, bermanfaat dan dapat dimengerti dalam suatu database yang sangat besar (massive database).

Berdasarkan sifat masalahnya, teknik – teknik data mining dikelompokkan menjadi : 1. Classification/Klasifikasi disebut juga supervised learning. Bersifat prediktif dan

digunakan untuk variabel target diskret, menentukan sebuah record data baru ke salah satu dari beberapa kategori (kelas) yang telah didefinisikan sebelumnya. Cocok digunakan untuk menggambarkan dataset dengan tipe biner atau nominal. Tipe model klasifikasi yaitu Classification by decision tree, neural network, Naïve Bayes, Support Vector Machines (SVM), Classification Based on Associations.

2. Clustering/Klasterisasi/segmentasi, disebut juga dengan unsupervised learning. Bersifat deskriptif dan digunakan untuk mengidentifikasi kelompok secara umum yang didasarkan pada seperangkat atribut. Tipe klasterisasi yaitu Partitioning methods, Hierarchical agglomerative methods, density based methods, Grid-based methods, model-based methods.

3. Assosiation Rule Discovery/Asosiasi merupakan proses populer lain dari data mining, juga disebut analisis keranjang pasar (market basket analysis). Tipe Asosiasi yaitu Multilevel association rule, Multidimensional association rule, quantitative association rule, direct association rule, indirect association rule.

4. Regression/Regresi merupakan fungsi untuk menemukan model data yang memiliki tingkat eror paling kecil. Tipe regresi, yaitu linier regession, multivariate linier regression, nonlinier regression, multivariate nonliniear regression.

5. Sequential Pattern Discovery merupakan pencarian sejumlah event/peristiwa yang secara

umum terjadi bersama-sama.

2.2.2 Komparasi

Menurut Witten (2005) membandingkan dua metode yang berbeda pada masalah yang sama untuk melihat mana yang lebih baik untuk digunakan. memperkirakan kesalahan menggunakan kros validasi (atau prosedur estimasi lain yang cocok), mungkin diulang beberapa kali, dan memilih skema yang estimasi lebih kecil. Hal ini cukup banyak aplikasi praktis, jika salah satu metode memiliki suatu perkiraan kesalahan yang lebih rendah daripada yang lain pada dataset tertentu, yang terbaik yang dapat di lakukan adalah dengan menggunakan model metode ini. Namun, hal itu mungkin, bahwa perbedaan tersebut hanya disebabkan oleh kesalahan estimasi, dan dalam beberapa keadaan adalah penting untuk menentukan apakah satu skema ini benar-benar lebih baik daripada yang lain pada masalah tertentu. Model perbandingan. Analisis data mining yang perlu digunakan di sini adalah model deskriptif dapat dengan mudah berubah menjadi satu prediktif. Telah membandingkan model dasar dengan lebih model grafis terstruktur, yang merupakan model yang paling penting statistik simetris untuk analisis data pada tabel (Giudici dan Vigini,2009). Kriteria Perbandingan untuk model Data Mining dapat diklasifikasikan ke dalam skema: kriteria berdasarkan uji statistik, berdasarkan

fungsi mencetak, kriteria Bayesian, kriteria komputasi, dan kriteria bisnis.(Maimon dan Lior,2005:642). Mengingat pembelajaran dua algoritma, serta membandingkan dan menguji apakah metode tersebut membangun dan pengklasifikasi yang memiliki kesamaaan pada tingkat kesalahan dalam ekplorasi data.(Alpaydin,2010:501)

2.2.3 Metode Naïve Bayes

Algoritma Naïve Bayes merupakan salah satu algoritma yang terdapat pada teknik klasifikasi. Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal Teorema Bayes.

Teorema tersebut dikombinasikan dengan Naïve dimana diasumsikan kondisi antar atribut saling bebas. Klasifikasi Naïve Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya.

Persamaan dari teorema Bayes adalah : P(H|X)= P(X|H).P(H)

P(X) Keterangan:

X :Data dengan class yang belum diketahui

H :Hipotesis data x merupakan suatu class spesifik P(H|X) :Probabilitas hipotesis H berdasarkan kondisi X P(H) :Probabilitas hipotesis H (prior probability)

P(X|H) :Probabilitas X berdasarkan kondisi pada hipotesis H P(X) :probabilitas X

Untuk menjelaskan teorema Naïve Bayes, perlu diketahui bahwa proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi sampel yang dianalisis tersebut. Karena itu, teorema Bayes di atas disesuaikan sebagai berikut:

P(C|F ฀ ....F฀ ) = P(C)P(F฀ F฀ |C) P(F¹. ... F ฀ )

Dimana variabel C merepresentasikan kelas, sementara variabel F1….Fn merepresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan klasifikasi.

Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel karakteristik tertentu dalam kelas C (Posterior) adalah peluang munculnya kelas C (sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan peluang kemunculan karakteristik- karakteristik sampel pada kelas C (disebut juga likehood), dibagi dengan peluang kemunculan karakteristik-karakteristik sampel secara global (disebut juga evidence). Karena itu, rumus diatas dapat pula ditulis secara sederhana sebagai berikut:

Posterior = Prior x likehood Evidence

Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari posterior tersebut nantinya akan dibandingkan dengan nilai-nilai posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan penjabaran lebih lanjut rumus Bayes tersebut dilakukan dengan menjabarkan (C|F1… Fn) menggunakan aturan perkalian sebagai berikut:

P(C|F฀ ...,F฀ ) = P(C)P(F฀ ,F฀ |C)

= P (C) P(F ฀ |C) P(F₂ ,....F฀ |C, F฀ )

= P(C) P(F ฀ |C) P(F₂ |C, F฀ ) P(F₃ ,...F฀ |C, F฀ , F₂ )

=P(C)P(F ฀ |C) P(F₂ |C, F฀ ) P(F₃ |C, F฀ , F₂ ), P(F₄ ,...F฀ |C, F฀ , F₂ , F ₃ )

=P(C) P(F ฀ |C) P(F₂ |C, F฀ ) P(F₃ |C, F฀ , F₂ )..P (F฀ |C,F฀ , F₂ , F₃ ,..

F ₄ -฀ )

Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak dan semakin kompleksnya faktor-faktor syarat yang mempengaruhi nilai probabilitas, yang hampir mustahil untuk dianalisa satu persatu. Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah digunakan asumsi independensi yang sangat tinggi (naïve), bahwa masing-masing petunjuk (F1,F2…Fn) saling bebas (independen) satu sama lain. Dengan asumsi tersebut, maka berlaku suatu kesamaan sebagai berikut:

P(Pᵢ|F฀ ) = P(Fᵢ Ո F฀ ) = P(Fᵢ) P(F฀ ) = P(Fᵢ) P(F฀ ) P(F฀ )

untuk i ≠ j, sehingga

p(Fᵢ|C, F฀ )= P(Fᵢ|C)

Dari persamaan diatas dapat disimpulkan bahwa asumsi independensif naif tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran P(C|F1,…,Fn) dapat disederhanakan menjadi:

Persamaan diatas merupakan model dari teorema Naïve Bayes yang selanjutnya akan

digunakan dalam proses klasifikasi. Untuk klasifikasi dengan data kontinyu digunakan rumus Densitas Gauss:

Adapun alur dari metode Naïve Bayes adalah sebagai berikut:

1. Baca data training

2. Hitung jumlah dan probabilitas, namun apabila data numerik maka:

a. Cari nilai mean dan standar deviasi dari masing-masing parameter yang merupakan data numerik.

b. Cari nilai probabilistik dengan cara menghitung jumlah data yang sesuai dari kategori yang sama dibagi dengan jumlah data pada kategori tersebut.

3. Mendapatkan nilai dalam tabel mean, standart deviasi dan probabilitas.

2.2.4 Pengertian Support vector machine (SVM)

Support vector machine (SVM) dikembangkan oleh Boser, Guyon, Vapnik dan pertama kali dipresentasikan pada tahun 1992 di Annual Workshop on Computational Learning Theory. Konsep SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah class pada input space. Gambar memperlihatkan beberapa pattern yang merupakan anggota dari dua buah class : +1 dan –1.

Pattern yang tergabung pada class –1 disimbolkan dengan warna merah (kotak), sedangkan pattern pada class +1, disimbolkan dengan warna kuning (lingkaran). Problem klasifikasi dapat diterjemahkan dengan usaha menemukan garis (hyperplane) yang memisahkan antara kedua kelompok tersebut (Cortes & Vapnik, 1995). Garis pemisah (discrimination boundaries) ditunjukkan pada Gambar merupakan salah satu alternatif garis pemisah yang memisahkan kedua class.

Gambar 2.1 Kedua Class Dipisahkan Secara Linear oleh Sebuah Hyperplane (Nugroho, 2008)

Hyperplane pemisah terbaik antara kedua class dapat ditemukan dengan mengukur margin hyperplane tersebut dan mencari titik maksimalnya. Margin adalah jarak antara hyperplane tersebut dengan pattern terdekat dari masing-masing class. Pattern yang paling dekat ini disebut sebagai support vektor. Garis solid pada Gambar 4.1-b menunjukkan hyperplane yang terbaik, yaitu yang terletak tepat pada tengahtengah kedua class, sedangkan titik merah dan kuning yang berada dalam lingkaran hitam adalah support vector. Usaha untuk mencari lokasi hyperplane ini merupakan inti dari proses pembelajaran pada support vector machine (Nugroho, 2008).

Data yang tersedia dinotasikan sebagai 𝑋𝑖 ∈ 𝑅𝑑 sedangkan label masing-masing dinotasikan 𝑦𝑖 ∈ {−1 + 1 } untuk 𝑖 = 1,2,…,𝑙, yang mana l adalah banyaknya data.

Diasumsikan kedua class –1 dan +1 dapat terpisah secara sempurna oleh hyperplane berdimensi d , yang didefinisikan (Nugroho, 2008

.𝑋 + 𝑏 = 0

Pattern 𝑋𝑖 yang termasuk class -1 (sampel negatif) dapat dirumuskan sebagai pattern yang memenuhi pertidaksamaan

𝑊 .𝑋𝑖 + 𝑏 ≤ −1

Sedangkan patter 𝑋𝑖 yang termasuk class +1 (sampel positif)

𝑊 .𝑋𝑖 + 𝑏 ≥ +1

Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara hyperplane dan titik terdekatnya, yaitu 1/‖𝑤 ‖. Hal ini dapat dirumuskan sebagai Quadratic Programming (QP) problem, yaitu mencari titik minimal persamaan, dengan memperhatikan constraint persamaan.

Pemetaan ini dilakukan dengan menjaga topologi data, dalam artian dua data yang berjarak dekat pada input space akan berjarak dekat juga pada feature space, sebaliknya dua data yang berjarak jauh pada input space akan juga berjarak jauh pada feature space.

Gambar 2.2 Kedua Class Dipisahkan Secara Linear oleh Sebuah Hyperplane (Nugroho, 2008)

Selanjutnya proses pembelajaran pada SVM dalam menemukan titik-titik support vector, hanya bergantung pada dot product dari data yang sudah berdimensi lebih tinggi, yaitu Φ (𝑋𝑖 ).Φ(𝑋𝑗 ). Karena umumnya transformasi Φ ini tidak diketahui, dan sangat sulit untuk dipahami secara mudah, maka perhitungan dot product tersebut dapat digantikan dengan fungsi kernel 𝐾(𝑋𝑖 ,𝑋𝑗 ) yang mendefinisikan secara implisit transformasi Φ.

Kernel trick memberikan berbagai kemudahan, karena dalam proses pembelajaran SVM, untuk menentukan support vector, hanya cukup mengetahui fungsi kernel yang dipakai, dan tidak perlu mengetahui wujud dari fungsi non-linear Φ. Selanjutnya hasil klasifikasi dari data 𝑋 diperoleh dari persamaan berikut (Cortes & Vapnik, 1995):

Support vektor pada persamaan di atas dimaksudkan dengan subset dari training set yang terpilih sebagai support vector, dengan kata lain data 𝑋𝑖 yang berkorespondensi pada 𝑎𝑖 ≥ 0. Fungsi kernel yang biasanya dipakai dalam dalam literatur SVM yaitu(Nugroho, 2008):

sampel yang diambil dari dataset untuk membentuk data training atau testing itu diambil tanpa penggantian, artinya contoh yang sama setelah dipilih tidak dapat dipilih lagi (Witten, I.

H., Frank, E., & Hall, 2011), jadi dengan menggunakan bootstrapping sampel yang sudah dipilih dapat dipilih kembali, hal ini memungkinkan penilaian terhadap estimasi akurasi dengan random sampling dengan penggantian dari dataset yang asli sehingga bisa meningkatkan akurasi dan mempercepat waktu komputasinya.

a) KARAKTERISTIK SVM

Karakteristik SVM sebagaimana telah dijelaskan pada bagian sebelumnya, dirangkumkan sebagai berikut:

1) Secara prinsip SVM adalah linear classifier.

2) Pattern recognition dilakukan dengan mentransformasikan data pada input spaceke ruang yang berdimensi lebih tinggi, dan optimisasi dilakukan pada ruang vector yang baru tersebut. Hal ini membedakan SVM dari solusi pattern recognition pada umumnya, yang melakukan optimisasi parameter pada ruang hasil transformasi yang berdimensi lebih rendah dari pada dimensi input space.

3) Menerapkan strategi Structural RiskMinimization (SRM).

4) Prinsip kerja SVM pada dasarnya hanyamampu menangani klasifikasi dua class.

b) KELEBIHAN DAN KEKURANGAN SVM

Dalam memilih solusi untuk menyelesaikan suatu masalah, kelebihan dan kelemahan masing-masing metode harus diperhatikan. Selanjutnya metode yang tepat dipilih dengan memperhatikan karakteristik data yang diolah. Dalam hal SVM, walaupun berbagai studi telah menunjukkan kelebihan metode SVM dibandingkan metode

konvensional lain, SVM juga memiliki berbagai kelemahan. Kelebihan SVM antara lain sbb.

1. Generalisasi

Generalisasi didefinisikan sebagai kemampuan suatu metode (SVM, neural network, dsb.) untuk mengklasifikasikan suatu pattern, yang tidak termasuk data yang dipakai dalam fase pembelajaran metode itu. Vapnik menjelaskan bahwa generalization error dipengaruhi oleh dua faktor: error terhadap training set, dan satu faktor lagi yang dipengaruhi oleh dimensi VC (Vapnik-Chervokinensis). Strategi pembelajaran pada neural network dan umumnya metode learning machine difokuskan pada usaha untuk meminimimalkan error pada training-set. Strategi ini disebut Empirical Risk Minimization (ERM). Adapun SVM selain

meminimalkan error pada training-set, juga meminimalkan faktor kedua. Strategi ini disebut Structural Risk Minimization (SRM), dan dalam SVM diwujudkan dengan memilih hyperplane dengan margin terbesar. Berbagai studi empiris menunjukkan bahwa pendekatan SRM pada SVM memberikan error generalisasi yang lebih kecil daripada yang diperoleh dari strategi ERM pada neural network maupun metode yang lain.

2. Curse of dimensionality

Curse of dimensionality didefinisikan sebagai masalah yang dihadapi suatu metode pattern recognition dalam mengestimasikan parameter (misalnya jumlah hidden neuron pada neural network, stopping criteria dalam proses pembelajaran dsb.) dikarenakan jumlah sampel data yang relatif sedikit dibandingkan dimensional ruang vektor data tersebut. Semakin tinggi dimensi dari ruang vektor informasi yang diolah, membawa konsekuensi dibutuhkannya jumlah data dalam proses pembelajaran. Pada kenyataannya seringkali terjadi, data yang diolah berjumlah terbatas, dan untuk mengumpulkan data yang lebih banyak tidak mungkin dilakukan karena kendala biaya dan kesulitan teknis.

Dalam kondisi tersebut, jika metode itu “terpaksa” harus bekerja pada data yang berjumlah relatif sedikit dibandingkan dimensinya, akan membuat proses estimasi parameter metode menjadi sangat sulit. Curse of dimensionality sering dialami dalam aplikasi di bidang biomedical engineering, karena biasanya data biologi yang tersedia sangat terbatas, dan penyediaannya memerlukan biaya tinggi. Vapnik membuktikan bahwa tingkat generalisasi yang diperoleh oleh SVM tidak dipengaruhi oleh dimensi dari input vector . Hal ini merupakan alasan mengapa SVM merupakan salah satu metode yang tepat dipakai untuk memecahkan masalah berdimensi tinggi, dalam keterbatasan sampel data yang ada.

3. Landasan teori

Sebagai metode yang berbasis statistik, SVM memiliki landasan teori yang dapat dianalisa dengan jelas, dan tidak bersifat black box.

4. Feasibility

SVM dapat diimplementasikan relatif mudah, karena proses penentuan support vector dapat dirumuskan dalam QP problem. Dengan demikian jika kita memiliki library untuk menyelesaikan QP problem, dengan sendirinya SVM dapat diimplementasikan dengan mudah. Selain itu dapat diselesaikan dengan metode sekuensial sebagaimana penjelasan sebelumnya.

Disamping kelebihannya, SVM memiliki kelemahan atau keterbatasan, antara lain:

1. Sulit dipakai dalam problem berskala besar. Skala besar dalam hal ini dimaksudkan dengan jumlah sample yang diolah.

2. SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua class. Dewasa ini SVM telah dimodifikasi agar dapat menyelesaikan masalah dengan class lebih dari dua, antara lain strategi One versus rest dan strategi Tree Structure. Namun demikian, masing- masing strategi ini memiliki kelemahan, sehingga dapat dikatakan penelitian dan pengembangan SVM pada multiclass-problem masih merupakan tema penelitian yang masih terbuka.

c.Particle Swarm Optimazition

Optimasi adalah proses menyesuaikan kepada masukan atau karakteristik perangkat, proses matematis, atau percobaan untuk menemukan output minimum atau maksimum atau hasil. Input terdiri dari variabel, proses atau fungsi dikenal sebagai fungsi biaya, fungsi tujuan, atau kemampuan fungsi, dan output adalah biaya atau tujuan jika proses adalah sebuah percobaan, kemudian variabel adalah masukan fisik untuk percobaan (Haupt & Haupt, 2004).

Particle Swarm Optimization (PSO) adalah metode pencarian penduduk, yang berasal dari penelitian untuk pergerakan organisme dari kelompok burung atau ikan, seperti algoritma genetika, Particle Swarm Optimization (PSO) melakukan pencarian menggunakan populasi (swarm) dari individu (partikel) yang diperbaharui dari iterasi untuk iterasi (Fei, et al, 2009).

Particle Swarm Optimization (PSO) merupakan algoritma pencarian berbasis populasi dan diinisialisasi dengan populasi solusi acak dan digunakan untuk memecahkan masalah optimasi (Abraham et al, 2006). PSO adalah teknik yang terinspirasi oleh proses

alami burung yang berkelompok, dan juga dikenal sebagai segerombolan intelijen dengan mempelajari perilaku sosial atau kelompok hewan. (Shukla,et al, 2010). untuk menemukan solusi yang optimal, masing-masing partikel bergerak ke arah posisi sebelumnya terbaik (pbest) dan terbaik posisi global (gbest).

a. CRISP-DM

Cross-Industry Standard Process for Data Mining (CRISP-DM) dikembangkan tahun 1996 oleh analis dari beberapa industry seperti DaimlerChrysler, SPSS dan NCR. CRISP- DM menyediakan standar proses data mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian (Rahmatullah, 2016). Dalam metode CRISP-DM terdapat enam proses data mining seperti tergambarkan dalam Gambar berikut ini (Defiyanti, 2015):

Gambar.2.3 CRISP-DM

a. Bussiness Understanding

Pada fase ini berfokus pada pemahaman dan perspektif bisnis proses dari suatu sistem.

Yaitu penentuan tujuan proyek, menerjemahkan tujuan, dan menyiapkan strategi untuk penyampaian tujuan.

b. Data Understanding

Pada fase ini berfokus pada pembelajaran data yang sudah ada, pengumpulan dan penyeleksaian data.

c. Data Preparation

Pada fase ini proses meliputi persiapan pemilihan variabel yang akan dianalisis yang digunakan dalam pemodelan

d. Modeling

Pada fase ini proses yang terjadi adalah pemilihan model yang sesuai. Pemodelan disini dapat dikalibrasi agar mengoptimalkan hasil

e. Evaluation

Pada fase ini proses yang terjadi adalah mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas.

f. Deployment

Pada fase ini proses yang terjadi adalah menggunakan model yang dihasilkan.

b. K-Fold Cross Validation

K-fold cross validation adalah teknik untuk mengestimasi performansi dari model pelatihan yang telah dibangun. Metode ini membagi data training dan data testing sebanyak k bagian data. Fungsi dari k-fold cross validation adalah agar tidak ada overlapping pada data testing. Berikut ini ilustrasi sederhana dari k-fold cross validation (Sasongko, 2016).

Gambar.2.4 K-fold cross validation

Pada ilustrasi yang tertera pada Gambar 2.4 dapat dijabarkan bahwa percobaan menggunakan 4-fold cross validation. Hal ini tertera pada jumlah eksperimen yang dilakukan kotak yang berwarna abu-abu merupakan test set dan sisanya (kotak berwarna putih) merupakan training set. Sebagai contoh diberikan data sebanyak 40 instances pada ilustrasi Gambar 2.2-2, maka eksperimen pertama kotak yang berwarna abu-abu dari instances 1 hingga instances dengan urutan yang ke 10 yang berjumlah 10 instances merupakan test set dan sisanya instances urutan ke 11 hingga urutan ke 30 yang berjumlah 30 instances (kotak yang berwarna putih) merupakan training set. Dari eksperimen pertama didapatkan hasil nilai rata-rata error. Kemudian dilanjutkan cara yang sama untuk eksperimen kedua seperti pada eksperimen pertama hingga eksperimen ke empat. Setelah itu dihitung rata-rata keseluruhan estimasi error dari setiap eksperimen yang telah dilakukan hingga akhir.

c. Rapidminer

Rapid Miner adalah salah satu aplikasi opensource yang dapat digunakan untuk melakukan proses data mining. Salah satu metode data mining adalah menggunakan regresi linier. Regresi linier merupakan metode statistik yang digunakan untuk melakukan estimasi atau perkiraan berdasarkan data yang ada RapidMiner menyediakan prosedur data mining dan mechine learning termasuk : ETL (Extraction, Transformation, Loading), data preprocessing, visualisasi, modelling, dan evaluasi (Imelda A.Muis, 2015).

Rapid miner merupakan software tool Open Source untuk data Mining. Rapid miner dioperasikan pada sebuah lingkungan untuk machine learning, data mining, text mining dan predictive analytics.

Desain proses analisa pada Rapid Miner sudah memenuhi : 1. Fleksibilitas.

Fleksibilitas karena sangat fleksibel untuk mendefinisikan proses analisa secara visual dengan GUI.

2. Fungsionalitas.

Fungsionalitas karena meliputi lebih dari 500 fungsionalitas data mining dalam bentuk operator-operator.

3. Skalabilitas

 Mulai versi 4.6 fokus utama pada skalabilitas untuk data ukuran besar.

 Konsep view untuk data mirip seperti database.

 Transformasi data on-thefly tanpa copy .

 100 juta data set bukanlah data yang besar.

d. Confusion Matrix

Confusion matrix memberikan keputusan yang diperoleh dalam traning dan testing, confusion matrix memberikan penilaian performance klasifikasi berdasarkan objek dengan benar atau salah. Confusion matrix berisi informasi aktual (actual) dan prediksi (predicted) pada sistem klasifikasi. Berikut tabel penjelasan tentang conusion matrix (Badrul, 2014).

Tabel.2.1 Confusion matrix

Keterangan:

True Positive (tp) = proporsi positif dalam data set yang diklasifikasikan positif True Negative (tn) = proporsi negative dalam data set yang diklasifikasikan negative False Positive (fp) = proporsi negatif dalam data set yang diklasifikasikan potitif False Negative(fn) = proporsi negative dalam data set yang diklasifikasikan negatif

e. Curve ROC

Curve ROC (Receiver Operating Characteristic) adalah cara lain untuk mengevaluasi akurasi dari klasifikasi secara visual (Vercellis, 2009). Sebuah grafik ROC adalah plot dua dimensi dengan proporsi positif salah (fp) pada sumbu X dan proporsi positif benar (tp) pada sumbu Y. Titik (0,1) merupakan klasifikasi yang sempurna terhadap semua kasus positif dan kasus negatif. Nilai positif salah adalah tidak ada (fp = 0) dan nilai positif benar adalah tinggi (tp

= 1). Titik (0,0) adalah klasifikasi yang memprediksi setiap kasus menjadi negatif {- 1}, dan titik (1,1) adalah klasifikasi yang memprediksi setiap kasus menjadi positif {1}. Grafik ROC menggambarkan trade-off antara manfaat („true positives’) dan biaya („false positives’). Satu point pada kurva ROC adalah lebih baik dari pada yang lainnya jika arah garis melintang dari

kiri bawah ke kanan atas didalam grafik. Tingkat akurasi dapat di diagnosa sebagai berikut (Badrul, 2014):

Akurasi 0.90 – 1.00 = Excellent classification Akurasi 0.80 – 0.90 = Good classification Akurasi 0.70 – 0.80 = Fair classification Akurasi 0.60 – 0.70 = Poor classification Akurasi 0.50 – 0.60 = Failure

2.2.4 Kredit bermasalah atau macet

memberikan dampak yang kurang baik bagi negara, masyarakat, dan perbankan Indonesia. Likuiditas, keuangan, solvabilitas dan profitabilitas bank sangat dipengaruhi oleh keberhasilan bank dalam mengelola kredit yang disalurkan (Kasmir, 2012), banyak kejadian yang terjadi membuktikan bahwa kredit yang bermasalah atau kredit macet diakibatkan oleh pemberian persetujuan kredit yang tidak begitu ketat (Widjanarto, 2003).

Pemberian kredit kepada konsumen atau calon nasabah atau debitur adalah dengan melewati proses pengajuan kredit dan proses analisis pemberian kredit terhadap kredit yang diajukan, setelah menyelesaikan prosedur administrasi barulah pihak bank melakukan analisis kredit. Analisis yang digunakan dalam perbankan adalah Analisis 5 C yaitu Character, Capacity, Capital, Condition, dan Collateral, serta analisis 7 P yaitu Personality, Party, Purpose, Prospect, Payment, Profitability, dan Protection, dalam praktiknya di samping menggunakan 5C dan 7P, maka penilaian suatu kredit layak atau tidak untuk diberikan dapat dilakukan dengan menilai seluruh aspek yang ada, yaitu Aspek hukum, aspek pemasaran, aspek teknis, aspek manajemen, aspek sosial ekonomi dan aspek amdal (Kasmir, 2012).

Aspek hukum adalah untuk menilai keaslian dan keabsahan dokumendokumen yang diajukan oleh pemohon kredit. Aspek pemasaran adalah untuk menilai apakah kredit yang dibiayai

Dalam dokumen PROPOSAL PENELITIAN HIBAH INTERNAL TAHUN ID Proposal: 1733 Rencana Pelaksanaan Penelitian bulan September tahun 2020 (Halaman 21-39)