9
BAB II KAJIAN PUSTAKA 2.1 Tinjauan Pustaka
Pada penelitian yang dilakukan oleh peneliti terdapat beberapa istilah dan teori yang didapatkan dari berbagai macam sumber yaitu buku, jurnal, majalah, dan lain sebagainya. Penjelasan mengenai istilah dan teori yang digunakan akan dituangkan dalam subbab berikut.
2.1.1 Air
Air merupakan sebuah senyawa kimia yang terdiri dari oksigen dan hidrogen sehingga menghasilkan senyawa air atau H2O. Definisi lain dari istilah air adalah salah satu unsur yang tidak dapat dipisahkan dari seluruh makhluk hidup yang berada di bumi, sehingga air dikatakan sebagai kebutuhan pokok yang memiliki peranan penting dalam proses kehidupan. Pada kehidupan sehari-hari seluruh makhluk hidup terutama manusia, pastinya akan membutuhkan air disegala bentuk kegiatan maupun aktivitas yang dilakukan.
Perkiraan air yang dibutuhkan oleh manusia dalam melakukan aktivitas sehari-hari berupa memasak, minum, mencuci, mandi, dan aktivitas lainnya yaitu minimal 100 liter per-orang [28]. Air yang biasa digunakan untuk aktivitas sehari-hari bukanlah air murni, tetapi air yang berasal dari sumber tertentu yang nantinya akan dilakukan proses penambahan zat kimia agar air tersebut layak untuk digunakan [29]. Kebutuhan manusia terhadap air akan selalu meningkat setiap waktunya karena terjadi peningkatan jumlah penduduk yang memerlukan air, untuk memenuhi kebutuhan tersebut air yang digunakan dapat diperoleh dari berbagai sumber. Sumber-sumber air dapat dikelompokan menjadi 4 kelompok yaitu:
1. Air Hujan
Air hujan dapat terjadi karena adanya proses penguapan terhadap air permukaan. Hasil dari proses penguapan tersebut nantinya akan naik ke atmosfer dan terjadi proses pendinginan, setelah itu air akan jatuh ke permukaan bumi dalam bentuk hujan. Air hujan banyak dimanfaatkan diberbagai daerah seperti daerah yang air tanahnya tidak dapat digunakan dan daerah yang tidak memiliki air tanah. Cara yang
10
biasanya dilakukan sebelum melakukan pemanfaatan air hujan yaitu menampungnya di atap rumah, tong, kolam, dan bak.
2. Air Permukaan
Air permukaan merupakan salah satu bagian dari air hujan yang mengalami atau tidak mengalami proses peresapan (infiltrasi), kemudian air tersebut akan muncul atau mengalir ke permukaan bumi [30]. Beberapa contoh air permukaan yaitu danau, sungai, rawa, dan limpasan. Secara umum air permukaan akan mengalami pengotoran berupa lumpur, bakteri, bahan buangan, daun, batang kayu, dan lain sebagainya saat terjadi pengaliran. Hal tersebut menjadikan air permukaan yang mengalir kurang baik untuk dikonsumsi manusia. Bila air permukaan akan digunakan untuk kepentingan manusia dalam memenuhi kebutuhan air, maka diperlukannya sebuah tindakan atau perlakukan berupa proses pembersihan air secara bertahap.
3. Air Tanah
Air tanah ialah sumber air yang berasal dari tanah dan keberadaannya sangat tergantung akan besarnya curah hujan dan air yang meresap ke tanah. Proses terbentuknya air tanah mengikuti siklus hidrologi dimana air hujan akan mengalir di permukaan menuju beberapa sumber air seperti rawa, danau, sungai, dan sebagian lainnya akan meresap ke tanah. Air tanah dapat berupa air sumur yang dapat dibagi menjadi dua jenis berdasarkan tingkat kedalamannya yaitu air tanah dangkal dan dalam [31]. Air tanah dangkal disebut juga dengan air tanah freatik yang banyak digunakan untuk sumur biasa dan sumur pompa dalam memenuhi kebutuhan sehari-hari. Sedangkan air tanah dalam atau disebut dengan artesis merupakan air yang berada di antara lapisan batuan kedap air dan lapisan akuifer. Pada umumnya air tanah banyak digunakan untuk memenuhi kebutuhan sehari-hari karena airnya tidak terkontaminasi oleh lingkungan sekitar.
4. Air Laut
Air laut merupakan air yang berasal dari laut atau samudera yang terdiri dari campuran air murni sebesar 96.5% dan 3.5% material lainnya
11
(garam, bahan-bahan organik, gas terlarut, dan partikel-partikel tidak terlarut) [32]. Penggunaan air laut pada umumnya dilakukan saat beberapa sumber air tidak dapat digunakan, untuk itu perlu dilakukannya proses yang bernama desalinasi. Proses desalinasi merupakan proses untuk pengolahan air laut menjadi air tawar [33]
dengn beberapa cara yang dapat dilakukan seperti osmosis atau hiperfiltrasi, destilasi, elekto dialisa, dan lainnya.
2.1.2 Kualitas Air
Pemanfaatan air dalam kehidupan sehari-hari menjadi suatu hal yang sangat penting, dimana agar air tersebut dapat dimanfaatkan dengan tingkat akurasi yang diinginkan diperlukan suatu upaya. Upaya tersebut dapat berupa pemantauan dan intepretasi data kualitas air.
Kualitas air merupakan suatu ukuran untuk mengetahui kondisi air dengan melihat karakteristiknya. Pada umumnya kualitas air dapat menunjukan suatu kondisi maupun mutu air yang dapat dikaitkan dengan penggunaan, keperluan, dan kegiatan tertentu [34]. Setiap kegiatan atau keperluan pastinya memiliki kualitas air yang berbeda, seperti kualitas air untuk keperluan minum berbeda dengan kualitas air pertanian. Seiring berjalannya waktu akan timbul berbagai macam variasi kondisi air yang disebabkan oleh kondisi lingkungan sekitarnya. Cara untuk mengetahui kualitas atau kondisi air dapat dilakukannya sebuah pengujian. Pengujian akan kualitas air dibagi menjadi 4 yaitu pengujian secara kimia (pH, BOD, COD, oksigen terlarut, dan sebagainya), biologi (keberadaan bekteri atau plankton, dan sebagainya), fisika (suhu, padatan terlarut, kekeruhan, dan sebagainya), dan kenampakan.
2.1.3 Data Mining
Data mining merupakan gambaran dari teknik pengumpulan dengan tujuan menemukan pola terbaru atau tidak diketahui pada suatu data yang telah dikumpulkan. Menurut Zulfian Azmi dan Muhammad Dahria, data mining adalah proses berulang yang memerlukan interaksi manusia dalam proses menemukan pola baru yang nantinya dapat digeneralisasi untuk masa yang akan datang serta bermanfaat jika digunakan untuk melakukan suatu tindakan
12
[35]. Data mining sendiri memiliki hubungan dengan berbagai ilmu seperti kecerdasan buatan (artificial intelligent), statistik, machine learning, dan basis data. Sedangkan teknik dalam literatur data mining meliputi association rule mining, clustering, classification, neural network, dan genetic algorithm [36]. Saat ini aplikasi data mining digunakan di berbagai bidang, seperti pendidikan, analisis market, rekayasa manufaktur, perbankan, kesehatan, dan lainnya. Terdapat beberapa faktor yang menyebabkan berbagai bidang memerlukan data mining yaitu ukuran dan jumlah yang besar, persaingan bisnis yang sangat ketat, semakin terjangkaunya kemampuan komputasi, dan telah dilakukannya proses data warehousing.
Pada data mining terdapat beberapa tahapan atau proses yang berlangsung.
Secara garis besar terdapat 5 tahapan yang terjadi di data mining, yaitu sebagai berikut:
1. Seleksi Data
Seleksi data merupakan proses meminimalkan jumlah data dalam database yang digunakan sesuai dengan kebutuhan dalam menganalisis.
Hasil dari seleksi data akan disimpan pada suatu berkas yang terpisah dari basis operasional data dan nantinya hasil tersebut akan digunakan untuk proses data mining.
2. Pre-processing atau Cleaning
Proses pre-processing ini mencakup beberapa kegiatan seperti memeriksa data inkonsisten, membuang data duplikasi, dan memperbaiki kesalahan dalam data.
3. Transformasi
Proses ini dapat mengubah bentuk data sehingga data siap untuk dianalisis. Dalam penelitian yang dilakukan proses ini dilakukan pada data yang telah di seleksi maupun pre-processing sehingga data tersebut dapat melanjutkan ke proses berikutnya.
4. Data mining
Proses mining merupakan proses utama dalam menerapkan suatu metode untuk menemukan pola informasi atau pengetahuan berharga
13
serta tersembunyi dalam data yang terpilih. Pada data mining ini terdapat berbagai macam teknik, metode, algoritma yang dapat digunakan. Tujuan dan proses data mining secara keseluruhan ini tergantung terhadap pemilihan algoritma atau metode yang tepat.
5. Interpretasi atau evaluasi
Tahap interpretasi ini akan menampilkan hasil pola informasi ke dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Pada tahap ini diperiksa apakah pola informasi yang telah ditemukan bertentangan dengan fakta atau hipotesis sebelumnya.
2.1.4 Imbalance Data
Imbalance atau ketidakseimbangan data adalah suatu peristiwa dimana salah satu kelas memiliki jumlah data lebih banyak dari kelas lainnya. Imbalance data menjadi salah satu permasalahan pada data mining yang penting untuk diatasi, dikarenakan dapat menyebabkan metode klasifikasi mudah dalam mengklasifikasikan kelas mayoritas dari pada kelas minoritas [13].
Upaya dalam mengatasi permasalahan imbalance data dapat dilakukan dengan dua pendekatan yaitu pendekatan level data dan level algoritma [37].
Pendekatan level data merupakan pendekatan yang melakukan perbaikan keseimbangan kelas dengan menggunakan proses sampling pada data mayoritas dan minoritas. Sedangkan pendekatan level algoritma, pendekatan dengan melakukan perbaikan algoritma atau improvisasi maupun penggabungan metode klasifikasi agar kelas minoritas lebih konduktif.
Masing-masing pendekatan pastinya memiliki kelebihan dan kekurangan, diantaranya yaitu pendekatan level data lebih stabil serta tangguh hampir di seluruh classifier. Kelemahan yang dimiliki pendekatan tersebut adalah terjadinya missing information atau overfitting setelah dilakukannya proses sampling. Sedangkan untuk level algoritma, data akan bergantung pada classifier tertentu karena data yang akan diolah merupakan data asli tanpa adanya perubahan. Hal tersebut memiliki arti bahwa algoritma yang telah diusulkan belum tentu dapat mencapai performa yang sama baik jika
14
diimplementasikan pada suatu data lainnya yang mempunyai karakteristik yang berbeda.
Secara umum, permasalahan imbalance data dapat diselesaikan dengan 3 teknik sampling yaitu oversampling, undersampling, dan hybridsampling (gabungan oversampling dan undersampling) [38]. Oversampling merupakan teknik sampling yang bekerja dengan menambahkan jumlah data pada kelas minoritas secara acak [12]. Cara yang dilakukan undersampling dalam mengatasi imbalance yaitu dengan menghapus beberapa data mayoritas secara acak [39]. Sedangkan hybridsampling merupakan proses sampling dengan menggabungkan teknik oversampling dan undersampling [40]. Pada Gambar 2.1 dibawah ini merupakan ilustrasi terjadinya imbalance pada data.
Gambar 2.1 Imbalance Data 2.1.5 Oversampling
Oversampling merupakan teknik sampling dengan mengambil kelas minoritas agar proporsi pada label menjadi besar dibandingkan dengan proporsi asalnya. Menurut Ade Yuni Triyanto 2017, oversampling merupakan sebuah metode dengan membangkitkan data minoritas sehingga data tersebut sebanyak data mayoritas [14]. Setiap teknik sampling pastinya memiliki kelebihan dan kekurangan. Begitu pun dengan oversampling, kekurangannya adalah timbul overfitting saat pembuatan data sintetik.
Overfitting adalah situasi dimana data terbaik fokus kepada data yang digunakan untuk pelatihan atau training, biasanya fokus yang berlebihan terjadi dikarenakan overfitting menangkap noise pada data yang seharusnya
15
diabaikan dan hal tersebut akan mempengaruhi nilai akurasi. Pada Gambar 2.2 merupakan ilustrasi keadaan data sebelum dan setelah dilakukan oversampling.
Gambar 2.2 Ilustrasi Keadaan Sebelum dan Sesudah Oversampling
2.1.6 MWMOTE
MWMOTE atau Majority Weighted Minority Oversampling Technique merupakan salah satu teknik oversampling yang berguna untuk menyelesaikan permasalahan imbalance data (ketidakseimbangan). Hal yang dilakukan MWMOTE dalam menangani imbalance data dengan melakukan generate data sintesis berdasarkan anggota cluster kelas minoritas yang berdekatan dengan kelas mayoritas [20]. Tujuan MWMOTE yaitu meningkatkan proses dalam pemilihan sampel dan dapat meningkatkan proses pembuatan sampel data sintesis [21]. Pada MWMOTE terdapat tiga tahapan dalam pembuatan data sintetik, yaitu mengidentifikasi sampel kelas minoritas yang berada pada data mayoritas dalam kumpulan data, pembobotan kelas minoritas, dan klasterisasi. Tahap pertama dilakukan identifikasi data kelas minoritas yang berada pada cluster data mayoritas.
Selanjutnya setiap sampel informatif minoritas masuk kedalam proses pembobotan sesuai dengan kepentinga data. Tahap terakhir dilakukannya proses clustering dengan tujuan menjaga sampel sintesis yang berada pada kelompok cluster. Ketiga tahap tersebut nantinya akan menghasilkan data sintesis dengan nilai akurasi yang lebih baik serta dapat menurunkan noise (derajat bias) pada klasifikasi [21].
16 2.1.7 Clustering
Clustering merupakan metode dalam data mining untuk mengelompokan data berdasarkan kemiripan antara data yang satu dengan yang lain. Data yang berada dalam cluster memiliki karakteristik yang mirip satu sama lain dan berbeda karakteristik dengan cluster lainnya. Saat ini clustering banyak digunakan pada aplikasi dikarenakan clustering dapat menemukan kelompok yang tidak dikenal dalam suatu data. Clustering dibagi menjadi dua jenis yaitu hierarchical clustering dan partitional clustering.
Hierarchical Clustering merupakan metode pengelompokan yang mengasumsikan setiap data menjadi sebuah cluster diawal proses, dimana jika jumlah data sebesar a dan jumlah cluster sebesar b maka hal yang terjadi adalah a=b [41]. Teknik dalam melakukan pengeompokan objek atau data pada metode hierarchical clustering dibagi menjadi dua yaitu secara agglomerative atau penggabungan (bottom-up) dan divisive atau pembagian (top-down) [42]. Perbedaan kedua teknik tersebut adalah agglomerative clustering menggabungkan data menjadi satu kelompok, sedangkan divisive clustering semua data dipisahkan di sebuah kelompok besar sehingga menjadi kelompok yang mempunyai satu data. Contoh metode hierarchical clustering adalah Single, Average, Complete, Ward, Average Group, dan lainnya.
Sedangkan partitional clustering merupakan metode pengelompokan data dengan membagi seluruh data ke beberapa cluster, dimana cluster pada metode ini pastinya memiliki centroid atau titik pusat cluster yang akan dibuat dan juga saat pembentukan cluster akan terlebih dahulu ditentukan.
Tujuan dari metode ini adalah meminimumkan jarak antara pusat cluster dan data masing-masing [43]. Contoh metode partitional clustering yaitu K- Means, Mixture Modelling, dan Fuzzy C-Means.
2.1.8 Ward
Metode ward merupakan salah satu algoritma dari metode clustering yang bersifat agglomerative (penggabungan) dan sering disebut dengan metode variansi minimum (minimum variance method) [44]. Tujuan dari metode
17
ward yaitu memperoleh cluster dengan varians internal sekecil mungkin dan memaksimalkan varians dengan objek yang berada pada cluster lainnya [45].
Jarak yang terbentuk antar 2 cluster pada metode ward disebut dengan Sum of Square Error (SSE atau ESS). Sum of Square Error menjadi dasar dari metode ward dengan ukuran kehomogenan antara dua objek berdasarkan nilai paling minimum kesalahan jumlah kuadrat. Perhitungan untuk menentukan nilai SSE dapat dilakukan jika sebuah cluster memiliki elemen yang terdiri dari lebih dari satu objek. Secara umum, SSE dapat dihitung menggunakan rumus 2.1 dibawah ini [46]:
𝑆𝑆𝐸 = ∑𝑁𝑖=1(𝑥𝑖 − 𝑥̅)′(𝑥𝑖− 𝑥̅) ………..…………..……… (2.1) Keterangan rumus 2.1:
𝑥𝑖 = nilai objek ke-i
𝑥̅ = rata-rata nilai objek dalam cluster 𝑖 = 1, 2, 3, …., n
𝑁 = banyaknya objek
Jika terdapat sebuah penggabungan antara cluster U dan V, maka jumlah kuadrat di dalam cluster UV dapat dihitung dengan menggunakan formula sebagai berikut [46]:
𝑆𝑆𝐸𝑈 = ∑(𝑥𝑖− 𝑥̅𝑈)′(𝑥𝑖 − 𝑥̅𝑈)
𝑛𝑈
𝑖=1
𝑆𝑆𝐸𝑉 = ∑(𝑥𝑖− 𝑥̅𝑉)′(𝑥𝑖− 𝑥̅𝑉)
𝑛𝑉
𝑖=1
𝑆𝑆𝐸𝑈𝑉 = ∑(𝑥𝑖 − 𝑥̅𝑈𝑉)′(𝑥𝑖 − 𝑥̅𝑈𝑉)
𝑛𝑈𝑉
𝑖=1
dimana:
𝑆𝑆𝐸𝑈, 𝑆𝑆𝐸𝑉, 𝑆𝑆𝐸𝑈𝑉 = jumlah kuadrat kesalahan cluster U, V, dan UV 𝑛𝑈, 𝑛𝑉, 𝑛𝑈𝑉= banyaknya titik pada cluster U, V, dan UV
𝑥̅𝑈, 𝑥̅𝑉, 𝑥̅𝑈𝑉 = rata-rata nilai objek dalam cluster U, V, dan UV
18
Penggabungan cluster U dan V pada metode ward dilakukan dengan meminimalkan peningkatan SSE yang dapat didefinisikan sebagai jarak antara cluster U dan V yang dirumuskan seperti dibawah ini.
𝐼𝑈𝑉= 𝑆𝑆𝐸𝑈𝑉− (𝑆𝑆𝐸𝑈+ 𝑆𝑆𝐸𝑉) ……….….……….... (2.2)
Hal tersebut dapat ditunjukkan mengenai peningkatan 𝐼𝑈𝑉 pada persaman 2.2 memiliki bentuk ekuivalen seperti dibawah ini.
𝐼𝑈𝑉= 𝑛𝑈(𝑥̅𝑈− 𝑥̅𝑈𝑉)′(𝑥̅𝑈− 𝑥̅𝑈𝑉) + 𝑛𝑉(𝑥̅𝑉− 𝑥̅𝑈𝑉)′(𝑥̅𝑉− 𝑥̅𝑈𝑉) = 𝑛𝑈𝑛𝑉
𝑛𝑈+𝑛𝑉(𝑥̅𝑈− 𝑥̅𝑉)′(𝑥̅𝑈− 𝑥̅𝑉) ..……….. (2.3)
Berdasarkan persamaan diatas, meminimalkan peningkatan SSE dapat dilakukan menggunakan ekuivalen dengan meminimalkan jarak antar cluster.
Selanjutnya dari persamaan 2.2 dan 2.3 Dapat diperoleh persamaan seperti berikut.
𝐼𝑖𝑗 = 𝑆𝑆𝐸𝑖𝑗 =1
2(𝑥𝑖 − 𝑥𝑗)′(𝑥𝑖− 𝑥𝑗) =1
2𝑑2(𝑥𝑖, 𝑥𝑗) =1
2∑ (𝑥𝑖𝑘 − 𝑥𝑗𝑘)2
𝑝 𝑘=1
=1
2𝑑𝑈𝑉2 .…………..………... (2.4) dimana 𝑑𝑈𝑉2 merupakan jarak euclidean kuadrat dari objek i dan j.
Metode ward memiliki beberapa langkah penyelesaian, yaitu sebagai berikut.
1. Langkah pertama yaitu asumsikan setiap data atau objek dianggap menjadi cluster dan untuk pertama kali nilai SSE bernilai 0.
2. Cluster akan terbentuk jika terdiri dari 2 data, kemudian dilakukan perhitungan jarak dengan menggunakan rumus sebagai berikut [47].
𝑑(𝑥,𝑦),𝑧 =(𝑛𝑥+𝑛𝑦)𝑑𝑥𝑧+(𝑛𝑦+𝑛𝑧)𝑑𝑦𝑧−𝑛𝑧𝑑𝑥𝑦
𝑛𝑥+𝑛𝑦+𝑛𝑧 ……....……… (2.5)
19 Keterangan :
nx = jumlah objek di cluster x ny = jumlah objek di cluster y nz = jumlah objek di cluster z
dxz = jarak antara cluster x dan cluster z dyz = jarak antara cluster y dan cluster z dxy = jarak antara cluster x dan cluster y
3. Pilih nilai jarak jarak atau SSE terkecil sehingga membentuk sebuah satu cluster.
4. Ulangi proses clustering hingga membentuk satu cluster yang berisi semua objek.
2.1.9 Klasifikasi Decision Tree
Decision tree adalah salah satu algoritma yang dapat digunakan untuk mengklasifikasikan data. Algoritma ini sering dikenal dengan C4.5, dikarenakan seorang peneliti bernama J. Ross Quinlan melakukan penelitian di bidang machine learning pada akhir tahun 1970 sampai awal 1980 dengan membuat algoritma decision tree yang dikenal dengan ID3 atau Iterative Dichotomiser. Kemudian dilakukan pengembangan oleh Quinlan sehingga didapatkan algoritma yang merupakan penyempurna algoritma sebelumnya dengan nama C4.5 [48]. Decision tree merupakan algoritma yang membuat pohon keputusan dari node paling atas (akar) sampai node paling bawah (daun). Manfaat utama yang didapatkan dari penggunaan algoritma decision tree yaitu dalam pembuat keputusan dapat menafsirkan solusi untuk menyelesaikan masalah dengan kemampuan menyederhanakan pengambilan keputusan yang kompleks menjadi spesifik dan simpel. Sedangkan kelebihan yang dimiliki oleh algoritma decision tree yaitu fleksibel, mudah untuk dimengerti, dan menarik dalam hal memvisualisasikan dalam bentuk gambar atau pohon keputusan [49]. Berikut ini merupakan rumus algoritma C4.5 untuk menghitung entropy.
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑𝑛𝑖=1−𝑝𝑖 ∗ 𝑙𝑜𝑔2𝑝𝑖 ……….…….…..……… (2.6) Keterangan:
S : himpunan kasus
20 K : banyaknya partisi S
pi : probabilitas yang didapatkan dari pembagian antara jumlah kelas dengan total kasus
Langkah selanjutnya yaitu mencari nilai gain dengan menggunakan nilai entropy yang didapat. Nilai gain tersebut nantinya akan menentukan atribut sebagai sebuah akar. Rumus yang digunakan untuk menghitung gain dapat dillihat pada persamaan 2.7 dibawah ini.
𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − (∑ 𝐴𝑖
𝑆 ∗ Entropy(𝐴𝑖)
𝑛 𝑖=1
) …..……..… (2.7) Keterangan:
S : himpunan kasus
|Si| : jumlah kasus pada partisi ke-i A : atribut
|S| : jumlah kasus dalam S 2.1.10 Confusion Matrix
Confussion matrix merupakan matrix yang menggambarkan hasil pengukuran performa pada permasalahan klasifikasi machine learning. Nilai yang dihasilkan pada tabel confusion matrix dibagi menjadi 4, diantaranya True Positive (TP), True Negative (TN), False Positive (FP), dan False Negative (FN). Tabel confusion matrix dapat dilihat pada Tabel 2.1 dibawah ini.
Tabel 2.1 Confusion Matrix
Keterangan untuk Tabel 2.1 dinyatakan sebagai berikut:
a. True Positive (TP) : Jumlah data positif yang terdeteksi benar sebagai positif.
b. True Negative (TF) : Jumlah data negatif yang terdeteksi benar sebagai negatif.
c. False Positif (FP) : Jumlah data negatif yang terdeteksi positif.
d. Fale Negative (FN) : Jumlah data positif yang terdeteksi negatif.
Predicted Positif Predicted Negative
Actual Positive TP FN
Actual Negative FP TN
21
Pada proses evaluasi kinerja ini akan menampilkan serta membandingkan nilai sebenarnya dengan nilai hasil prediksi yang dapat digunakan dalam menghasilkan matriks evaluasi. Matriks evaluasi tersebut berupa nilai accuraccy, precision, recall, dan f-measure. Dibawah ini merupakan penjelasan serta formula dari matriks evaluasi dengan menggunakan confusion matrix.
a. Accuracy
Akurasi merupakan nilai ketepatan dari hasil pengukuran yang mendekati nilai sebenarnya.
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 ………... (2.8) b. Precision
Precision merupakan jumlah kelompok dokumen relevan dari keseluruhan dokumen yang ditemukan sistem.
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃
𝑇𝑃+𝐹𝑃 .…………..……… (2.9) c. Recall
Recall merupakan terpanggilnya dokumen relevan dengan pernyataan yang di inputkan oleh pengguna di dalam sistm sistem temu balik informasi.
𝑟𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃
𝑇𝑃+𝐹𝑁 ………..………. (2.10) d. F-measure
F-measure merupakan salah satu perhitungan evaluasi dengan mengkombinasikan recall dan precision.
𝐹 − 𝑀𝑒𝑎𝑠𝑢𝑟𝑒 =(2 ×𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ×𝑟𝑒𝑐𝑎𝑙𝑙)
(𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 +𝑟𝑒𝑐𝑎𝑙𝑙) ……… (2.11)
2.2 Tinjauan Pustaka
Penelitian mengenai metode oversampling semakin berkembang setiap waktunya, oleh karena itu terdapat beberapa penelitian sebelumnya yang berkaitan dengan teknik oversampling MWMOTE dalam upaya penanggulangan imbalance data.
Pada Tabel 2.2 ini merupakan ringkasan hasil dari penelitian – penelitian sebelumnya yang menjadi referensi dalam penelitian. Adapun penelitian terdahulu yang dimaksud oleh peneliti sebagai berikut:
22
1. Pada tahun 2014, Sukarna Barua, Md. Monirul Islam, Xin Yao, dan Kazuyuki Murase melakukan penelitian yang berjudul “MWMOTE—Majority Weighted Minority Oversampling Technique for Imbalanced Data Set Learning” [20]. Penelitian tersebut menjelaskan bahwa permasalahan imbalance learning mengandung distribusi sampel data yang tidak merata di setiap kelasnya sehigga menjadi suatu tantangan dalam pengklasifikasian.
Para peneliti mengusulkan metode baru yaitu Majority Weighted Minority Oversampling Technique (MWMOTE) dalam menangani masalah imbalance learning secara efisien. Hasil penelitian tersebut menunjukan bahwa metode MWMOTE lebih baik dalam hal G-mean, ROC, dan AUC dari pada metode oversampling lainnya.
2. Pada tahun 2018, Meida Cahyo Untoro beserta Joko Lianto Buliali melakukan penelitian mengenai “Penanganan Imbalance Class Data Laboratorium Kesehatan dengan Majority Weighted Minority Oversampling Technique” [11]. Tujuan dari penelitian ini adalah menangani kasus ketidakseimbangan data laboratorium sehingga didapatkan sebuah pengklasifikasian mengenai penyakit dengan nilai akurasi yang tinggi. Data yang digunakan pada penelitian ini memiliki rasio sebesar 2:8, dimana 2 merupakan penyakit yang jarang (minoritas) dan 8 adalah penyakit yang sering dijumpai (mayoritas). Hasil evaluasi decision tree yang diperoleh pada proses MWMOTE adalah nilai akurasi 85.47%, precision 50,82%, recall 70.52%, dan F-measure 59.04%. Hasil tersebut menunjukan bahwa penggunaan metode MWMOTE dapat meningkatkan akurasi pada permasalahan imbalance data sebesar 3.13%.
3. Pada tahun 2021, Pramana Yoga Saputra, Moch Zawaruddin Abdullah, dan Annisa Puspa Kirana melakukan sebuah penelitian mengenai “Improvisasi Teknik Oversampling MWMOTE Untuk Penanganan Data Tidak Seimbang”
[21]. Penelitian tersebut dilaksanakan untuk melakukan improvisasi generate data sintetik dengan teknik MWMOTE. Data yang digunakan dalam penelitian berjumlah 8 dataset dan data tersebut berasal dari UC Irvine Machine learning Repository. Hasil improvisasi tersebut adalah sebuah data yang akan tersebar luas ke dalam kelas minoritas. Berdasarkan proses
23
pengujian metode yang diusulkan yaitu CB-MWMOTE dapat meningkatkan performa klasifkasi KNN dan C4.5 Decision tree dengan hasil sebesar 0,46%
dan 0,96% dibandingkan dengan metode MWMOTE.
4. Pada tahun 2020, Nurissaidah Ulinnuh dan Rafika Veriani, melakukan penelitian mengenai “Analisis Cluster dalam Pengelompokan Provinsi di Indonesia Berdasarkan Variabel Penyakit Menular Menggunakan Metode Complete , Average dan Ward” [26]. Penelitian ini memiliki tujuan untuk mengelompokan provinsi di Indonesia berdasarkan variabel jenis penyakit.
Hal tersebut mempunyai maksud agar diberikannya sebuah informasi mengenai kesehatan disetiap provinsi. Berdasarkan hasil yang didapatkan menggunakan ketida metode yaitu metode ward merupakan metode yang paling baik dikarenakan memiliki nilai rasio simpangan baku yang paling kecil 0,08670 dibandingkan dengan metode lainnya.
5. Pada tahun 2016, Fiqih Satria dan RZ. Abdul Aziz, melakukan penelitian mengenai “Perbandingan Kinerja Metode Ward dan K-Means Dalam Menentukan Cluster Data Mahasiswa Pemohon Beasiswa (Studi Kasus : STMIK Pringsewu)” [50]. Tujuan dari penelitian ini adalah membandingkan hasil dari metode K-Means dan Ward dalam pengelompokan data mahasiswa pemohon beasiswa. Sebelum melakukan proses clustering, dilakukannya proes pemodelan data karena diantara atribut-atribut yang diteliti memiliki perbedaan satuan yang cukup signifikan. Data yang digunakan pada penelitian ini yaitu 180 data mahasiswa semester 3 sampai 7 yang mengajukan beasiswa pada tahun 2015. Hasil yang didapatkan yaitu metode ward memiliki kinerja yang baik karena mendapatkan nilai rasio yang lebih kecil dari K-Means sebesar 0.5346668 %.
6. Retnani Latifah, Emi Setia Wulandari, dan Priadhana Edi Kreshna melakukan sebuah penelitian di tahun 2019 mengenai “Model Decision tree untuk Prediksi Jadwal Kerja menggunakan Scikit-Learn” [6]. Jumlah data yang digunakan pada penelitian sebesar 54 data jadwal kerja dengan 4 variabel berupa data numerik dan kategorikal. Hasil dari pengujian model decision tree yaitu didapatkan nilai evaluasi yang cukup tinggi dengan nilai akurasi diatas 0,7 dan nilai presisi diatas 0,9. Hasil tersebut menunjukan bahwa
24
kinerja decision tree dengan presentasi data uji terbaik yaitu data uji 30:70 data latih.
7. Meida Cahyo Untoro, Mugi Praseptiawan, Mastuti Widianingsih, Ilham Firman Ashari, Aidil Afriansyah, dan Oktafianto melakukan sebuah penelitian pada tahun 2020 dengan judul “Evaluation of Decision tree, K-NN, Naive Bayes and SVM with MWMOTE on UCI Dataset” [7]. Tujuan dari penelitian ini adalaj melakukan evaluasi metode klasifikasi decision tree, K- NN, naive bayes, dan support vector machine pada teknik overampling MWMOTE dalam menghasilkan data sintetik yang lebih representatif dan meningkatkan nilai akurasi. Hasil dari penelitian yaitu setelah dilakukannya teknik oversampling MWMOTE pada data yang tidak seimbang didapatkan metode decision tree menjadi metode yang terbaik dengan akurasi sebesar 96.30%.
Tabel 2.2 Penelitian Terkait No Penulis,
dan Tahun
Judul Penelitian
Permasalahan dan Tujuan
Metode Hasil Penelitian 1 2014,
Sukarna Barua, Md.
Monirul Islam, Xin Yao, Kazuyuki Murase
Analisis Cluster dalam
Pengelompokan Provinsi di Indonesia Berdasarkan Variabel Penyakit Menular Menggunakan Metode Complete , Average dan Ward
Permasalahan ketidakseimbangan data mengandung distribusi sampel yang tidak merata antara kelas yang berbeda, sehingga menimbulkan tantangan pada pengklasifikasian.
Tujuannya menangani
ketidakseimbangan secara efisien dengan menggunakan metode MWMOTE.
Metode MWMOTE
Hasil yang didapatkan pada hampir semua kasus MWMOTE unggul dalam beberapa ukuran kinerja seperti accuracy, precision, f- measure, G- mean, dan AUC.
2. 2018, Meida Cahyo Untoro beserta Joko Lianto Buliali
Perbandingan Kinerja Metode Ward dan K- Means dalam Menentukan Cluster Data Mahasiswa
Permasalahan rasio yang tidak
seimbang pada data laboratorium menyebabkan nilai akurasi rendah dalam
Metode MWMOTE
Hasil evaluasi pengguaan MWMOTE dalam menangani imbalance
25 No Penulis,
dan Tahun
Judul Penelitian
Permasalahan dan Tujuan
Metode Hasil Penelitian Permohonan
Beasiswa
pengklasifikasian dan penanganan penyakit.
Tujuannya menyelesaikan imbalance data dengan membuat data sintetik yang representasif dilihat dari beberapa nilai seperti accuracy, precision, recall, dan f-measure.
data didapatkan nilai akurasi 85,47%, precision 50.82%, recall 70.52, dan F- measure 59.04%.
3. 2021, Pramana Yoga Saputra, Moch Zawaruddin Abdullah, Annisa Puspa Kirana
Model Decision tree untuk Prediksi Jadwal Kerja
menggunakan Scikit-Learn
Data sintesis yang dihasilkan oleh metode MWMOTE memiliki tingkat akurasi yang baik, akan tetapi data tersebut masih terpaku pada tepi area cluster dan hal tersebut akan mengakibatkan pembiasan
klasifikasi. Tujuan penelitian ini adalah melakukan improvisasi pada proses generate data sisntesis agar data tersebar luas di dalam kelas minoritas dan meningkatkan hasil klasifikasi.
Metode MWMOTE, KNN, C4.5 Decision tree
Pada
penelitian ini mengusulkan improvisasi metode oversampling MWMOTE dengan menggunaka n 8 dataset.
Hasil yang didapatkan adalah metode CB- MWMOTE memberikan peningkatan klasifikasi K- NN sebesar 0.431% dan C4.5 decision tree sebesar 0.989%. Dari ke-8 dataset CB-
MWMOTE dan
MWMOTE memiliki keunggulan di beberapa dataset.
26 No Penulis,
dan Tahun
Judul Penelitian
Permasalahan dan Tujuan
Metode Hasil Penelitian 4. 2020,
Nurissaidah Ulinnuh , Rafika Veriani
Evaluation of Decision tree, K-NN, Naive Bayes and SVM with MWMOTE on UCI Dataset
Masyarakat Indonesia belum menyadari pentingnya
menjaga kesehatan, hal tersebut dapat dilihat dari munculnya beberapa permasalahan kesehatan
(penyakit menular dan tidak menular).
Tujuan penelitian ini adalah
memberikan informasi
kesehatan kepada seluruh provinsi dengan cara mengelompokan provinsi di Indonesia berdasarkan variabel jenis penyakit.
Complete , Average , dan Ward.
Metode ward merupakan metode yang paling baik dalam mengelompo kan provinsi di Indonesia dikarenakan menghasilkan rasio simpang baku yang paling kecil dari metode lainnya yaitu 0,08670.
5. 2016, Fiqih Satria dan RZ. Abdul Aziz
Analisis Cluster dalam
Pengelompokan Provinsi di Indonesia Berdasarkan Variabel Penyakit Menular Menggunakan Metode Complete , Average dan Ward
Timbulnya beberapa permasalahan dalam proses penerimaan beasiswa antara lain hasil yang didapatkan kurang efektif karena masih dilakukan secara manual dan ketidakjelasan metodologi yang digunakan pada proses tersebut.
Penelitian ini dilakukan untuk membandingkan metode K-Means dan Ward dalam
Ward dan K-Means
Hasil yang didapatkan pada penelitian adalah metode ward memperoleh nilai rasio simpang baku sebesar 0.5346668%, nilai tersebut lebih keci dibandingkan dengan simpang baku K-Means 0,831525302
%.
27 No Penulis,
dan Tahun
Judul Penelitian
Permasalahan dan Tujuan
Metode Hasil Penelitian pengelompokan
mahasiswa terkait pengambilan keputusn Peningkatan Prestasi Akademik (PPA) dan
beasiswa Biaya Bantuan Akademik (BBA) di STMIK PRINGSEWU.
6. 2019, Retnani Latifah, Emi Setia Wulandari, dan
Priadhana Edi Kreshna
Perbandingan Kinerja Metode Ward dan K- Means dalam Menentukan Cluster Data Mahasiswa Permohonan Beasiswa
Data jadwal merupakan data yang memiliki tipe numerik dan kategorikal. Pada proses prediksi tipe data tersebut memberikan sebuah tantangan dikarenakan membutuhkan perhatian yang khusus.
Decision tree
Hasil yang didapatkan metode decision tree dalam memprediksi 54 jadwal kerja yaitu menghasilkan nilai evaluasi yang cukup tinggi dengan nilai akurasi di atas 0,7 dan presisi diatas 0,9.
7. 2020, Meida Cahyo Untoro, Mugi Praseptiawa n, Mastuti Widianingsi h, Ilham Firman Ashari, Aidil Afriansyah, dan
Oktafianto
Model Decision tree untuk Prediksi Jadwal Kerja
menggunakan Scikit-Learn
Ketidakseimbangan data dapat
menyebabkan terjadinya kesalahan dalam klasifikasi, dikarenakan mayoritas data yang dominan berada pada data minoritas. Hal tersebut dapat mengakibatkan penurunan akurasi.
Tujuan dari
penelitian ini untuk mengevaluasi metode klasifikasi decision tree, K-
Decision tree, K-NN, Naive Bayes, dan Support Vector Machine
Hasil yang didapatkan setelah dilakukannya teknik
MWMOTE terhadap data yang tidak seimbang yaitu metode decision tree menghasilkan nilai akurasi yang paling tinggi dari metode lainnya sebesar 96.30%.
28 No Penulis,
dan Tahun
Judul Penelitian
Permasalahan dan Tujuan
Metode Hasil Penelitian NN, naive bayes,
dan support vector machine agar meningkatkan nilai akurasi serta menghasilkan data yang lebih
representatif.