KLASIFIKASI KUALITAS RED WINE MENGGUNAKAN RANDOM FOREST DAN SMOTE SKRIPSI

(1)

i

KLASIFIKASI KUALITAS RED WINE

MENGGUNAKAN RANDOM FOREST DAN SMOTE

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Informatika

Oleh:

Yolanda Eveline Ardiningtyas

165314077

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

(2)

ii

CLASSIFICATION OF RED WINE QUALITY

USING RANDOM FOREST AND SMOTE

THESIS

Presented as Partial Fulfillment of The Requirements

To Obtain the Sarjana Komputer Degree in Informatics Study Program

by:

Yolanda Eveline Ardiningtyas

165314077

INFORMATICS STUDY PROGRAM

DEPARTMENT OF INFORMATICS

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

(3)

v

HALAMAN PERSEMBAHAN

“Puncak gunung menjadi tempat yang paling di inginkan oleh banyak orang, karena disana adalah tempat yang cantik, tetapi, keindahan yang sebenarnya

terletak pada proses pendakian”

Dengan segala puji dan syukur, kupersembahkan skripsi ini kepada: Tuhan Yesus dan Bunda Maria,

Bapak dan Ibu, Romo Eko Budi Santoso

Eyang

Mas Nanda dan Mba Puput, Keluarga, dan

(4)

vii

ABSTRAK

Klasifikasi kualitas red wine dilakukan dengan harapan dapat mempermudah dalam melakukan penilaian kualitas red wine. Data yang digunakan untuk penelitian ini adalah data fisikokimia red wine yang berjumlah 1599 records, dan didapatkan dari website Kaggle. Klasifikasi kualitas red wine dilakukan dengan menggunakan metode random forest, karena metode ini memiliki akurasi yang baik, dan relatif kuat terhadap noise data. Preprocessing dilakukan untuk mempersiapkan data agar dapat diolah ke dalam algoritma. Preprocessing yang dilakukan adalah pengecekan terhadap noise dan missing value, dan transformasi data menggunakan metode normalisasi min-max. Setelah preprocessing dilakukan, maka selanjutnya dilakukan balancing kelas data minoritas dengan menggunakan metode SMOTE. Proses pembagian data testing dan data training dilakukan dengan metode K-Fold Cross Validation. Pada tahap pengujian, digunakan 3-fold, 5-fold, 7-fold, 9-fold, dan 11-fold dan menggunakan kombinasi pohon 2n_{, di mana n = 1,2,} …, 11. Berdasarkan pada pengujian yang dilakukan, didapatkan hasil akurasi 82.3478% dengan menggunakan 11-fold dan 1024 pohon.

Kata kunci: Confusion Matrix, klasifikasi kualitas red wine, K-Fold Cross

(5)

viii

ABSTRACT

Classification of red wine quality is done in the hope of making it easier in performing red wine quality assessments. The data used for this research was red wine physicochemical data totaling 1599 records, and was obtained from the

Kaggle website. Classification of red wine quality is done using the random forest

method, as this method has good accuracy, and is relatively strong to data noise. The preprocessing process is done to prepare the data in order to be processed into the algorithm. Preprocessing performed is checking against noise and missing value, data transformation using min-max normalization. Once the preprocessing is done, then it is further performed balancing the class of minority data using the SMOTE method. The process of data sharing testing and data training is done by the K-Fold Cross Validation method. At the testing stage, it is used 3-fold, 5-fold, 7-fold, 9-fold, and 11-fold and uses a combination of 2n trees, where n = 1.2, ..., 11. Based on the test carried out, there was an accuracy result of 82,3478% using 11-folds and 1024 trees.

Keywords: Confusion Matrix, K-Fold Cross Validation, red wine quality classification, Random Forest.

(6)

x

KATA PENGANTAR

Puji dan syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa atas rahmat yang telah diberikan, sehingga penulis dapat menyelesaikan skripsi dengan judul “Klasifikasi Kualitas Red Wine menggunakan Random Forest”. Penulis menyadari bahwa skripsi ini dapat selesai dengan bimbingan dan bantuan dari berbagai pihak. Dalam kesempatan ini, penulis mengucapkan terima kasih kepada: 1. Tuhan Yesus Kristus dan Bunda Maria yang telah menyertai dalam setiap

langkah dan setiap pilihan yang diambil.

2. Ibu Paulina Heruningsih Prima Rosa S.Si., M.Sc. selaku dosen pembimbing yang selalu membimbing dan mengarahkan selama penyusunan skripsi. 3. Bapak Robertus Adi Nugroho S.T., M.Eng. selaku Ketua Program Studi

Informatika yang selalu memberikan dukungan dan saran dalam perkuliahan.

4. Kedua orang tua, kakak, Romo Eko, serta keluarga yang telah memberikan semangat dan dukungannya selama perjalanan di perkuliahan.

5. Valentinus Angga, Andreas Beny, Arsa Wayan, dan Rachel Elisa Utama yang telah membantu dan memberikan pertolongan kepada dalam setiap kesulitan yang dihadapi.

6. Bertilla Claudia, dan semua kakak-adik angkat di SMA Sedes Sapientiae atas semangat yang diberikan, dan selalu mengingatkan untuk mengerjakan skripsi.

7. Kakak imajinerku (Kakak cantik baik hati) yang memberikan semangat, dan menjadi tempat berkeluh-kesah selama pengerjaan skripsi.

8. Vinny Gustini (Aara), Lanni Rahmat Diyanti (Diana), Kusumaning Ayu Eka Dewi (Kak Dew), Kak Resila, Kurnia Puspitasari (Gin), dan Farhan Zidan (Juki) yang selalu memberikan hiburan dan semangat untuk menyelesaikan skripsi ini.

9. Teman-teman yang selalu ada di Ruang Penelitian (Robert dan Edrick), dan Clara Santa, Galuh Pingkan, Muliana, Bram, David, Hady Ongan, serta teman-teman Informatika Angkatan 16 yang memberikan semangat baik

(7)

secara langsung ataupun tidak langsung, dan menjadi saksi hidup perjuangan selama kuliah di Universitas Sanata Dharma.

10. Semua pihak yang tidak dapat disebutkan satu per satu.

Penulis menyadari bahwa skripsi ini jauh dari kata sempurna, maka kritik dan saran yang bersifat membangun dari berbagai pihak sangat diharapkan. Akhir kata, penulis berharap semoga skripsi ini bermanfaat bagi semua pihak.

Yogyakarta, 17 Desember 2020 Penulis,

(8)

xii

DAFTAR ISI

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN ... iv

HALAMAN PERSEMBAHAN... v

PERNYATAAN KEASLIAN KARYA ... vi

ABSTRAK ... vii

ABSTRACT ... viii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH .. ix

KATA PENGANTAR ... x

DAFTAR ISI ... xii

DAFTAR GAMBAR ... xiv

DAFTAR TABEL ... xv BAB I PENDAHULUAN ... 1 1.1Latar Belakang ... 1 1.2 Rumusan Masalah ... 3 1.3 Tujuan ... 3 1.4 Batasan Masalah... 3 1.6 Sitematika Penulisan ... 4

BAB II LANDASAN TEORI ... 5

2.1 Wine ... 5

2.2Penambangan Data ... 6

2.3Classification and Regression Tree (CART) ... 8

2.4 Random Forest ... 9

2.5 K-Fold Cross Validation ... 11

2.6 Confusion Matrix ... 13

2.7 Synthetic Minority Oversampling Technique ... 14

BAB III METODE PENELITIAN... 16

3.1 Data ... 16

3.2 Tahap-Tahap Penelitian ... 18

3.2.1 Data Mentah ... 18

3.2.2 Preprocessing ... 18

3.2.3 Balancing Data ... 20

(9)

3.3 Desain Antarmuka ... 33

3.3.1Proses Input GUI ... 34

3.3.2Proses Output GUI ... 34

3.4 Spesifikasi Alat ... 34

BAB IV HASIL DAN ANALISIS SISTEM ... 35

4.1 Preprocessing ... 35

4.2 Pengujian ... 35

4.2.1 Percobaan dengan 3-fold ... 36

4.3 Evaluasi Hasil Pengujian... 42

BAB V KESIMPULAN DAN SARAN ... 50

5.1 Kesimpulan ... 50

5.2 Saran ... 50

(10)

xiv

DAFTAR GAMBAR

Gambar 2. 1 Struktur Pohon Klasifikasi ... 9

Gambar 2. 2 Prosedur 3-Fold Validation ... 12

Gambar 2. 3 Prosedur Confusion Matrix ... 13

Gambar 3. 1 Skema Penelitian ... 18

Gambar 3. 2 Pengecekan Missing Value ... 18

Gambar 3. 4 Distribusi Data Imbalance ... 20

Gambar 3. 5 Distribusi Data Setelah Balancing ... 21

Gambar 3. 6 Source Code Random Forest ... 22

Gambar 3. 7 Root Node Hasil Perhitungan ... 24

Gambar 3. 8 Pohon Keputusan Node Kedua ... 26

Gambar 3. 9 Pohon Keputusan Node Ketiga ... 28

Gambar 3. 10 Pohon Keputusan Node Keempat ... 29

Gambar 3. 11 Pohon Keputusan Node Kelima ... 30

Gambar 3. 12 Pohon Keputusan Node Keenam... 31

Gambar 3. 13 Pohon Keputusan Node Ketujuh ... 32

Gambar 3. 14 Pohon Keputusan Node Kedelapan ... 33

Gambar 3. 15 Desain Antarmuka ... 33

Gambar 4. 1 Grafik Percobaan 3-fold ... 37

Gambar 4. 6 Kesimpulan Hasil Pengujian ... 43

(11)

xv

DAFTAR TABEL

Tabel 2. 1 Skala Penilaian Wine ... 6

Tabel 3. 1 Penjelasan Atribut ... 16

Tabel 3. 2 Contoh Data Penelitian ... 17

Tabel 3. 4 Sampel Data Red Wine ... 22

Tabel 3. 5 Data Random untuk Root Node ... 23

Tabel 3. 6 Penghitungan Node Pertama ... 24

Tabel 3. 7 Random Dataset untuk Node Kedua ... 25

Tabel 3. 8 Penghitungan Node Kedua... 25

Tabel 3. 9 Random Data set untuk Node Ketiga ... 26

Tabel 3. 10 Penghitungan Node Ketiga ... 27

Tabel 3. 11 Random Data set untuk Node Keempat ... 28

Tabel 3. 12 Penghitungan Node Keempat... 28

Tabel 3. 13 Random Data set untuk Node Kelima... 30

Tabel 3. 14 Random Data set untuk Node Keenam ... 31

Tabel 3. 15 Random Data set untuk Node Ketujuh ... 31

Tabel 3. 16 Random Data set untuk Node Kedelapan ... 32

Tabel 4. 2 Data Sebelum Transformasi ... 35

Tabel 4. 3 Data Setelah Transformasi ... 35

Tabel 4. 4 Ketentuan Pengujian Fold ... 36

Tabel 4. 5 Percobaan 3-fold ... 36

Tabel 4. 10 Hasil Fold Pertama ... 43

Tabel 4. 11 Hasil Fold Kedua ... 44

Tabel 4. 12 Hasil Fold Ketiga ... 44

Tabel 4. 13 Hasil Fold Keempat ... 44

(12)

Tabel 4. 15 Hasil Fold Keenam ... 45

Tabel 4. 16 Hasil Fold Ketujuh ... 45

Tabel 4. 17 Hasil Fold Kedelapan ... 46

Tabel 4. 18 Hasil Fold Kesembilan ... 46

Tabel 4. 19 Hasil Fold Kesepuluh ... 46

(13)

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Perkembangan teknologi dan ilmu pengetahuan yang semakin pesat telah memengaruhi pengaksesan terhadap suatu informasi. Perkembangan teknologi informasi saat ini telah membantu manusia dalam menyelesaikan pekerjaannya. Perkembangan teknologi informasi ini, mempengaruhi perkembangan kemampuan dalam mengumpulkan, dan mengolah data menjadi informasi-informasi tertentu.

Perkembangan teknologi ini terjadi di semua bidang, termasuk dalam sertifikasi kualitas red wine. Evaluasi kualitas menjadi bagian dari proses sertifikasi, dan dapat digunakan untuk meningkatkan pembuatan anggur dengan mengidentifikasi faktor yang paling berpengaruh, yaitu kepadatan dan alkohol. Evaluasi kualitas umumnya dinilai oleh tes fisikokimia dan tes sensorik. Tes fisikokimia dapat ditentukan dengan serangkaian tes laboratorium, dan tidak diperlukan ahli manusia, kecuali tes sensorik yang membutuhkan ahli (Gupta, 2017). Selain itu, analisis fisikokimia dan sensorik yang kompleks sepenuhnya belum dipahami sebagai penilaian kualitas anggur (Legin et al., 2003). Di sisi lain, kemajuan teknologi informasi telah memungkinkan untuk mengumpulkan, menyimpan, dan memproses kumpulan data yang sangat besar dan sangat kompleks.

Di sisi lain, kemajuan teknologi informasi telah memungkinkan untuk mengumpulkan, menyimpan, dan memproses kumpulan data yang sangat besar dan sangat kompleks dengan menggunakan teknik data mining atau penambangan data. Penggunaan teknik Data mining dilakukan untuk mengklasifikasi kualitas wine berdasarkan data fisiokimia, juga dilakukan oleh Nasution, et al. (2019) dengan menggunakan dataset red wine yang berjumlah 1599 records. Pada penelitian ini, dilakukan pembandingan metode normalisasi Decimal Scaling, Min-max

Normalization, dan z-score normalization. Metode yang digunakan adalah K-NN

(14)

decimal scaling, 65,92% untuk metode min-max normalization, dan 65,85% untuk

metode z-score normalization.

Selain itu, Yesim dan Atasoy (2016) juga melakukan penelitian dengan menggunakan K-NN, Random Forest, dan Support Vector Machine. Penelitian ini menggunakan data berjumlah 1599, dan 11 atribut, yang mana penelitian ini menggunakan percentage split untuk melakukan percobaan, dan hasil yang didapatkan adalah 47,8% untuk SVM, K-NN memiliki akurasi sebesar 68,0%, dan 71,4% untuk Random Forest.

Data yang sama digunakan pada kedua penelitian di atas dan penelitian ini, yaitu menggunakan data kualitas red wine. Berbeda dengan dua penelitian yang telah dilakukan di atas, pada penelitian ini dilakukan proses balancing kelas minoritas dengan menggunakan metode SMOTE, yaitu dengan membangkitkan data buatan pada kelas minoritas. Pada data kualitas red wine diketahui distribusi kelas data yang tidak seimbang. Pada data yang berjumlah 1599 records ini, kelas 3 memiliki data berjumlah 10, kelas 4 berjumlah 53, kelas 5 berjumlah 681, kelas 6 berjumlah 638, kelas 7 berjumlah 199 dan kelas 8 berjumlah 18, dan dikarenakan ketidakseimbangan kelas data ini, maka diperlukan penyeimbangan data untuk mendapatkan hasil akurasi yang lebih baik lagi. Teknik cross validation dilakukan untuk membagi data training dan data testing. Selain itu, digunakan confusion

matrix untuk menghitung akurasi dengan memberikan informasi perbandingan

hasil klasifikasi yang dilakukan oleh sistem dengan klasifikasi yang sebenarnya. Berdasarkan latar belakang tersebut, dalam tugas akhir ini penulis akan menggunakan metode Random Forest untuk mengklasifikasi kualitas red wine berdasarkan dari data tes fisikokimia pada red wine, yang memiliki keluaran berupa kualitas red-wine yang diwakilkan dengan menggunakan kelas 3, 4, 5, 6, 7 dan 8.

Random Forest merupakan metode penggabungan pohon dengan melakukan training pada data set yang ada. Penentuan hasil klasifikasi random forest

berdasarkan hasil voting terbanyak dari pohon yang terbentuk. Random Forest merupakan metode yang akurasinya sebagus Adaboost dan terkadang lebih baik, relatif kuat terhadap noise, lebih cepat dari bagging dan boosting, dapat memberi tahu mengenai korelasi setiap variabel, dan mudah digunakan (Breiman, 2001).

(15)

Model tersebut memiliki beberapa tree yang setiap node merupakan atribut yang dipilih karena kemampuan yang baik untuk mengklasifikasi. Atribut yang dijadikan

node pada tree dapat dipertimbangkan sebagai faktor penentu untuk kualitas red wine.

1.2 Rumusan Masalah

Berdasarkan latar belakang di atas, rumusan Masalah pada penelitian ini adalah sebagai berikut:

1. Bagaimana penerapan metode Random Forest untuk mengklasifikasi kualitas red wine?

2. Berapa akurasi klasifikasi terbaik yang dihasilkan oleh metode Random

Forest?

3. Berapa jumlah fold yang menghasilkan akurasi terbaik?

4. Apakah SMOTE dapat meningkatkan akurasi pediksi dalam klasifikasi kualitas red wine?

1.3 Tujuan

Tujuan dari penelitian ini adalah sebagai berikut:

1. Menerapkan metode Random Forest untuk mengklasifikasi kualitas red

wine.

2. Menguji akurasi yang dihasilkan oleh metode Random Forest. 3. Mengetahui jumlah fold yang menghasilkan akurasi terbaik.

4. Mengetahui peningkatan hasil akurasi setelah melakukan proses SMOTE.

1.4 Batasan Masalah

Batasan-batasan masalah yang ditentukan dalam penelitian ini, antara lain: 1. Dataset yang digunakan adalah dataset kualitas wine yang terdiri dari 1599

baris data dengan 12 atribut. Data tersebut diperoleh dari website Kaggle, yang merupakan salah satu website penyedia data public.

(16)

2. Merancang model dengan menggunakan metode Random Forest untuk mengklasifikasi kualitas red wine.

3. Label yang digunakan dalam penelitian ini adalah kualitas red wine dengan kelas 3 (undrinkable), 4 (undrinkable), 5 (pretty bad), 6 (fair), 7 (quaffable), 8 (very good).

4. Evaluasi dalam penelitian ini menggunakan metode K-Fold Cross

Validation dengan fold 3, 5, 7, 9, 11.

5. Pengujian akurasi dalam penelitian ini menggunakan metode confusion

matrix.

1.6 Sitematika Penulisan

Penulisan skripsi ini tersusun dari 5 (lima) bab dengan sistematika penulisan sebagai berikut :

1. BAB I PENDAHULUAN

Bab ini berisi latar belakang, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan.

2. BAB II LANDASAN TEORI

Bab ini menjelaskan tentang landasan teori yang akan menjadi dasar penelitian implementasi algoritma Random Forest.

3. BAB III METODOLOGI PENELITIAN

Bab ini berisi tentang sumber data, studi pustaka, observasi, pengolahan data, pembuatan alat uji, analisa hasil dan pembuatan laporan, dan spesifikasi alat.

4. BAB IV ANALISA HASIL

Bab ini berisi analisa hasil dari algoritma Random Forest, dan hasil klasifikasi.

5. BAB V PENUTUP

Bab ini berisi kesimpulan dari penelitian yang sudah dibangun dan dijalankan, juga memuat saran-saran yang bisa digunakan guna memperbaiki dan mengembangkan penelitian di kemudian hari.

(17)

5

BAB II

LANDASAN TEORI

2.1 Wine

Anggur atau yang sering disebut wine merupakan minuman beralkohol yang terbuat dari fermentasi buah anggur. Wine adalah minuman yang sejarahnya bisa ditarik sampai sekitar 6000 SM, dan berasal dari daerah Mesopotamia lalu menyebar ke seluruh dunia. Menurut Handoyo (2007) wine menjadi populer dan menjadi alternatif minuman yang aman untuk dikonsumsi karena saat itu, sistem air bersih belum sebaik sekarang, malah tak jarang orang akan mencampur wine dengan air untuk meningkatkan hieginitas air tersebut. Dikarenakan hal tersebut, membuat orang semakin akrab dengan wine, dan menjadikannya sebagai bagian yang tak terpisahkan dalam budaya kuliner.

Ada tiga macam wine yang cukup di kenal, yaitu red wine, white wine, dan

sparkling wine. Red wine adalah wine yang dibuat dari anggur merah (red grape). Wine ini mendapatkan warnanya dari proses ekstraksi warna yang terdapat dalam

kulit red grape. White wine adalah wine yang dibuat dari anggur hijau (white

grape). Sparkling wine atau yang secara keliru sering disebut Champagne yang

merupakan nama suatu daerah penghasil sparkling wine di Perancis, adalah wine yang memiliki banyak kandungan gas CO2 berupa buih atau gelembung.

Saat ini banyak wine beredar di pasaran, sehingga penilaian terhadap wine mutlak diperlukan, karena hal ini memberikan pengaruh yang sangat besar terhadap produk dan konsumen wine. Ada banyak penilaian anggur berdasarkan para ahli yang telah tersertifikasi, salah satunya adalah penilaian menurut Cicchetti dan Cicchetti (2009) yang memberikan skala penilaian anggur yang akan ditunjukkan pada tabel 2.1 berikut ini :

(18)

Tabel 2. 1 Skala Penilaian Wine Peringkat

Numerik Peringkat Kata Komentar

10 Excellent Wine dengan rasa terbaik, dan biasanya diberikan untuk wine klasik.

9 Delicious Wine yang kompleks dan memiliki ciri khusus.

8

Very Good Wine yang direkomendasikan; salah satu

yang mungkin akan saya miliki di ruang bawah tanah.

7

Quaffable Wine yang dibuat dengan baik, tetapi pada

akhirnya merupakan wine yang tidak mencolok. Bukan wine yang memberikan pengalaman yang luar biasa.

6

Fair Wine yang dapat diminum, tetapi tidak

disarankan karena pembuatan anggur yang bermasalah atau rasa buah yang kurang mencolok.

5 Pretty Bad Wine yang hampir tidak bisa diminum, lebih baik di hindari.

1-4 Undrinkable Saya akan menuntut pengembalian uang jika saya mencicipi wine ini.

2.2 Penambangan Data

Penambangan data atau data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data

warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan dengan

bidang ilmu-ilmu lain, seperti database system, data warehousing, statistic,

(19)

Karakteristik penambangan data sebagai berikut :

1. Penambangan data berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya. 2. Penambangan data biasa menggunakan data yang sangat besar. Biasanya

data yang besar digunakan untuk membuat hasil lebih dipercaya.

3. Penambangan data berguna untuk membuat keputusan yang kritis, terutama dalam strategi (Davies, 2004).

Penambangan data dibagi menjadi beberapa berdasarkan tugas yang dapat dilakukan (Kusrini & Luthfi, 2009), yaitu :

1. Deskripsi

Menggambarkan pola dan kecenderungan yang terdapat pada data. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.

2. Estimasi

Metode ini hampir sama dengan metode klasifikasi, namun pada variabel target, estimasi lebih ke arah numerik daripada ke arah kategori. Peninjauan estimasi nilai dari variabel target dibuat berdasarkan nilai prediksi.

3. Peramalan

Metode ini hampir sama dengan metode klasifikasi dan estimasi. Namun dalam prediksi nilai dari hasil akan merujuk ke masa yang akan mendatang. 4. Klasifikasi

Proses penemuan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.

5. Asosiasi

Dalam penambangan data, tugas asosiasi adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut sebagai analisis keranjang belanja.

6. Clustering

Clustering merupakan pengelompokkan record, pengamatan atau

(20)

kemiripan.

Menurut Han et al. (2012) dalam proses pencarian suatu knowledge ada beberapa langkah yang diperlukan, yaitu:

1. Data cleaning

Pada langkah ini, dilakukan penghilangan noise dari data-data yang tidak konsisten.

2. Data integration

Melakukan kombinasi atau penyatuan data jika memiliki lebih dari satu sumber data.

3. Data selection

Pemilihan data yang sesuai dan relevan dengan tujuan analisis dari

database.

4. Data transformation

Perubahan/transformasi data ke dalam bentuk yang sesuai untuk dilakukan mining dengan cara melakukan operasi penjumlahan atau agregasi.

5. Data mining

Proses yang penting, dimana dilakukan penerapan sebuah metode intelijen untuk mencapai pola data.

6. Pattern evaluation

Mengidentifikasi pola yang mempresentasikan sebuah knowledge berdasarkan beberapa ukuran menarik (interestingness measure).

7. Knowledge presentation

Langkah penggunaan teknik visualisasi dan representasi sebuah knowledge tersebut ke pengguna.

2.3 Classification and Regression Tree (CART)

Classification and regression tree, merupakan salah satu metode dari pohon

keputusan. Metode yang dikembangkan oleh Leo Breiman ini merupakan teknik klasifikasi dengan menggunakan algoritma penyekatan rekursih secara biner (Lewis, 2000).

(21)

Classification and regression tree akan menghasilkan pohon klasifikasi jika

variabel respon memiliki skala kategorik dan menghasilkan pohon regresi jika variabel respon berupa data kontinu. Simpul awal disebut parent node dinotasikan t1, simpul dalam dinotasikan dengan t2, t3, t4, t5, t7, t9 dan t13, serta simpul akhir dinotasikan dengan t5, t6, t8, t11, t12, t14, t15, t16 dan t17 dimana setelahnya tidak ada lagi pemilahan. Pada gambar 2.1 di bawah ini menunjukkan struktur pohon klasifikasi.

Gambar 2. 1 Struktur Pohon Klasifikasi Sumber: Tan dkk., 2006

2.4 Random Forest

Random Forest adalah salah satu metode pembelajaran mesin berbasis pohon

keputusan yang banyak digunakan sejak diperkenalkan pertama kali oleh Breiman, karena memiliki dimensi yang tinggi, dan pemrosesan yang lebih cepat berfungsi pada fitur subset (Au, 2018). Random Forest merupakan metode pengembangan lanjutan dari pohon keputusan CART dengan menerapkan metode bootstrap

aggregating (bagging) dan random feature selection (Breiman, 2001). Random Forest dibangun dengan menggabungkan prediksi beberapa pohon, masing-masing

model dilatih secara independen dan prediksi digabungkan melalui rata-rata (Denil & Freitas, 2014).

(22)

memperbaiki hasil dari algoritma klasifikasi. Bagging merupakan salah satu metode yang berdasar pada ensemble method, yaitu metode yang menggunakan kombinasi dari beberapa model. Bagging prediktor adalah metode yang digunakan untuk membangkitkan multiple version dari prediktor dan menggunakannya untuk mendapatkan kumpulan prediktor. Multiple versions dibentuk dengan replikasi

bootstrap dari sebuah data percobaan (Breiman, 1996).

Random Forest dianggap sebagai salah satu pembelajaran yang paling akurat,

cepat dan mudah diterapkan, menghasilkan prediksi yang akurat dan dapat menangani sejumlah variabel input tanpa overfitting (Biau, 2012). Menggunakan algoritma yang mengantongi bootstrap di mana sebuah sampel acak dari set

training dipilih untuk membangun pohon (Ponmani et al, 2017). Random forest

terdiri dari penggunaan input atau kombinasi yang dipilih secara acak pada setiap

node untuk menumbuhkan setiap pohon. Ini memberikan akurasi yang diinginkan:

akurasi sebagus AdaBoost, relatif kuat untuk outlier dan noise (Breiman, 2001).

Random Forest merupakan metode klasifikasi supervised, dimana metode ini

akan menciptakan sebuah hutan (forest) dengan sejumlah pohon (tree). Semakin banyak pohon pada sebuah hutan, maka semakin kuat juga hutan tersebut terlihat. Pada kasus yang sama, semakin banyak tree, maka semakin besar pula akurasi yang didapatkan (Polamuri, 2017).

Menurut Cutler dkk., (2011) algoritma yang harus diikuti ketika membangun sebuah pohon menggunakan Random Forest adalah sebagai berikut.

1. Buat subset data dari data set menggunakan bootstrap.

2. Menggunakan sampel bootstrap sebagai data latih, dan buat pohon menggunakan partisi rekursif biner:

a. Mulai dengan satu node.

b. Ulangi langkah-langkah berikut untuk setiap node hingga kriteria terpenuhi:

i. Pilih m prediktor secara acak dari prediktor yang tersedia. ii. Temukan pemisah biner terbaik pada m prediktor dari

langkah i.

(23)

pemisah dari langkah ii.

Dalam membangun pohon keputusan dalam Random Forest, digunakan metode CART. Dimulai dengan menghitung nilai entropy sebagai penentu tingkat ketidakmurnian atribut dan nilai information gain. Untuk menghitung nilai entropy, digunakan rumus sebagai berikut:

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) = − ∑ 𝑖 𝑝(𝑐|𝑌)𝑙𝑜𝑔₂𝑝(𝑐|𝑌)………..(2.1)

Di mana :

Y = himpunan kasus

P(c|Y) = proporsi nilai Y terhadap kelas c

Sedangkan untuk mencari information gain yang digunakan untuk mengukur efektivitas suatu atribut dalam pengklasifikasian data dapat dihitung dengan rumus sebagai berikut.

𝐼𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛 𝐺𝑎𝑖𝑛 (𝑌, 𝑎)

= 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌) − ∑ 𝑣𝑎𝑙𝑢𝑒𝑠(𝑎)|𝑌𝑣|_|𝑌𝑎|𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑌𝑣))………..(2.2) Di mana:

Values(a) = semua nilai yang mungkin dalam himpunan kasus a

Yv = subkelas dari Y dengan kelas v yang berhubungan dengan kelas a Ya = semua nilai yang sesuai dengan a

Untuk mencari split point terbaik, maka data dari atribut tersebut harus diurutkan terlebih dahulu. Nilai tengah antara setiap pasangan nilai yang berdekatan dianggap sebagai kemungkinan yang bisa dijadikan split point.

2.5 K-Fold Cross Validation

Cross Validation adalah salah satu metode untuk mengevaluasi algoritma learning dengan membagi data menjadi dua segmen, yaitu segmen pertama yang

digunakan untuk pembelajaran (learning) pelatihan (training) model, dan segmen kedua digunakan untuk validasi model. Cross Validation memiliki ciri khas di mana

(24)

set training dan validasi harus disilangkan (cross-over) dalam putaran berturut-turut, sehingga setiap titik data memiliki peluang untuk divalidasi. K-Fold Cross

Validation menggunakan Cross Validation sebagai dasarnya (Rafaeilzadeh, 2008).

Langkah pertama dalam K-Fold Cross Validation adalah data akan dipartisi ke dalam segmen atau fold yang sama atau identik. Selanjutnya adalah melakukan iterasi ke-k dari training dan validasi sedemikian rupa sehingga dalam setiap iterasi

fold data yang berbeda dimunculkan untuk validasi. Sementara sisa fold k-1

digunakan untuk training. Pada gambar 2.2 menggambarkan contoh 3-fold

validation (k = 3).

Gambar 2. 2 Prosedur 3-Fold Validation Sumber: Rafaeilzadeh (2008).

Terdapat dua kemungkinan tujuan yang bisa didapatkan dari Cross

Validation, sebagai berikut.

1. Untuk melakukan estimasi performa suatu pemodelan yang menggunakan metode untuk pembelajaran suatu data, dengan kata lain untuk mengukur generalisasi metode.

2. Untuk membandingkan performa dari dua atau lebih metode yang berbeda dan menemukan metode yang terbaik untuk suatu data, atau untuk membandingkan performa dari dua atau lebih variasi parameter yang digunakan dalam pemodelan.

(25)

2.6 Confusion Matrix

Confusion matrix merupakan salah satu metode untuk menghitung akurasi

dengan memberikan informasi perbandingan hasil klasifikasi yang dilakukan oleh sistem dengan klasifikasi sebenarnya. Confusion matrix berbentuk tabel matriks yang menggambarkan kinerja model klasifikasi pada serangkaian data uji yang nilai sebenarnya diketahui. Gambar 2.3 merupakan confusion matrix dengan 4 kombinasi nilai prediksi dan nilai aktual yang berbeda. Nilai TP (True Positive) merupakan data positif yang diprediksi benar, TN (True Negative) merupakan data negatif yang diprediksi benar, FP (False Positive) adalah data negatif yang diprediksi sebagai data positif, dan FN (False Negative) merupakan data positif yang diprediksi sebagai data negatif).

Gambar 2. 3 Prosedur Confusion Matrix Nilai akurasi dapat dihitung dengan menggunakan rumus:

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = _TP+TN+FP+FNTP+TN ...(2.3) Di mana:

TP : jumlah kelas positif yang diklasifikasi sebagai positif FP : jumlah kelas negatif yang diklasifikasi sebagai positif TN : jumlah kelas negatif yang diklasifikasi sebagai negatif FN : jumlah kelas negatif yang diklasifikasi sebagai negatif

(26)

2.7 Synthetic Minority Oversampling Technique

Data tidak seimbang merupakan suatu keadaan dimana distribusi kelas data tidak seimbang, dengan jumlah kelas data (instance) yang satu lebih sedikit atau lebih banyak dibandingkan dengan jumlah kelas data lainnya. Kelompok kelas data yang lebih sedikit dikenal dengan kelompok minoritas, dan kelompok kelas data yang banyak disebut kelompok mayoritas. Suatu kelas pada dataset dengan pendistribusian kelas yang tidak seimbang menimbulkan klasifikasi yang lebih condong ke kelas mayoritas dibandingkan dengan kelas minoritas. Ketidakseimbangan kelas pada sebuah dataset merupakan suatu permasalahan dalam machine learning, dimana jumlah kelas mayoritas lebih besar daripada kelas minoritas. Untuk mengatasi masalah kelas yang imbalance, digunakan SMOTE (Synthetic Minority Oversampling Technique) yaitu sebuah pendekatan yang bekerja dengan membuat replikasi dari data minoritas. SMOTE bekerja dengan mencari k-nearest neighbors atau ketetanggaan terdekat data sebanyak k untuk setiap data di kelas minoritas (Siringoringo, 2018).

Pada pembelajaran mesin, data yang memiliki kelas tidak seimbang (imbalance) membuat pengklasifikasian berkinerja buruk karena klasifikasi hanya berjalan di kelas mayoritas (Poolsawad, dkk. 2014). Alasannya adalah bahwa klasifikasi berusaha mengurangi tingkat kesalahan, dan tidak mempertimbangkan distribusi data. Hal ini mengakibatkan sampel dari kelas mayoritas tergolong baik, sedangkan sampel dari kelas minoritas cenderung salah, diabaikan atau diasumsikan sebagai noise yang mengakibatkan banyak kesalahan pada klasifikasi kelas minoritas dibandingkan dengan kelas mayoritas. Sebagian besar algoritma pembelajaran mesin dilatih berdasarkan asumsi bahwa rasio pembagian setiap kelas hampir sama, dengan demikian penyeimbangan (balancing) kelas adalah proses yang penting untuk meningkatkan kinerja data mining (Poolsawad, dkk. 2014).

Metode SMOTE pertama kali diperkenalkan oleh Chawla, dkk (2002). Metode SMOTE menambahkan jumlah data kelas minor dengan cara membangkitkan data buatan. Data buatan tersebut dibuat berdasarkan k-tetangga terdekat. Jumlah k-tetangga terdekat ditentukan dengan mempertimbangkan kemudahan dalam melaksanakannya. Pembangkitan data buatan yang berskala

(27)

numerik berbeda dengan kategorik. Data numerik diukur jarak kedekatannya dengan jarak Euclidean, sedangkan data kategorik lebih sederhana, yaitu dengan nilai modus. Perhitungan jarak antara contoh kelas minor yang peubahnya berskala kategorik dilakukan dengan rumus Value Difference Metric (VDM) yaitu sebagai berikut:

∆ (X, Y) =W_xW_y∑N δ(X_i,

i=1 Yi)r...(2.4) Dengan:

∆ (X, Y) : jarak antara amatan X dengan Y WxWy : bobot amatan (dapat diabaikan) N : banyaknya peubah penjelas

R : bernilai 1 (jarak manhattan) atau 2 (jarak Euclidean) δ(𝑋_𝑖, 𝑌_𝑖)𝑟 _{: jarak antar kategori, dengan rumus:}

𝛿(𝑉1, 𝑉2) = ∑ |𝐶_𝐶11𝑖− 𝐶_𝐶2𝑖 2| 𝑛 𝑖=1 𝑘 ...(2.5) Di mana:

𝛿(𝑉1, 𝑉2) : jarak antara nilai V1 dan V2

C1i : banyaknya V1 yang termasuk kelas i C2i : banyaknya V2 yang termasuk kelas i I : banyaknya kelas; i = 1, 2, …, m C1 : banyaknya nilai 1 terjadi

C2 : banyaknya nilai 2 terjadi

N : banyaknya kategori

(28)

16

BAB III

METODE PENELITIAN

3.1 Data

Data yang digunakan pada penelitian ini merupakan data kualitas red wine yang didapatkan dari website Kaggle. Data ini memiliki 1599 record (baris) dengan 12 atribut (kolom). Data ini di unggah oleh piyushgoyal443 pada tahun 2017 dengan ekstensi .csv. Pada tabel 3.1 berikut adalah penjelasan dari masing-masing atribut.

Tabel 3. 1 Penjelasan Atribut

No. Atribut Deskripsi

1. Fixed acidity Rasa asam di dalam wine yang tidak langsung menguap

2 Volatile acidity Jumlah asam asetat dalam wine

3 Citric Acid Asam sitrat dapat menambah rasa kesegaran pada anggur, dan ditemukan dalam jumlah kecil 4 Residual Sugar Jumlah gula yang tersisa setelah fermentasi

dihentikan

5 Chlorides Jumlah garam dalam wine

6 Free sulfur dioxide

Ukuran jumlah SO2 yang tidak terikat pada molekul lain, dan digunakan untuk mencegah oksidasi dan pertumbuhan mikroba.

7 Total Sulfur Dioxide

Ukuran SO2 yang bebas dan terikat, jumlah SO2 yang berlebihan dapat menghambat fermentasi dan

menyebabkan efek sensorik yang tidak diinginkan. 8 Density Kepadatan air yang bergantung pada berapa persen

kandungan alkohol dan gula.

(29)

dalam skala 0 (sangat asam) hingga 14 (sangat basa). 10 Sulphates Aditif dalam wine yang fapat berkontribusi pada

tingkat gas sulfur dioksida.

11 Alcohol Persentase kandungan alkohol dalam wine 12 Quality Kualitas anggur (dari 1 sampai 10)

Contoh data yang digunakan dalam penelitian ini adalah sebagai berikut

Tabel 3. 2 Contoh Data Penelitian

Atribut Data fixedAcidity 7.4 7.8 7.8 11.2 volatileAcidity 0.7 0.88 0.76 0.28 citricAcid 0 0 0.04 0.56 residualSugar 1.9 2.6 2.3 1.9 chlorides 0.076 0.98 0.92 0.075 freeSulfurDioxide 11 25 15 17 totalSulfurDioxide 34 67 54 60 density 0.9978 0.9968 0.997 0.998 pH 3.51 3.2 3.26 3.16 sulphates 0.56 0.68 0.65 0.56 alcohol 9.4 9.8 9.8 9.8 quality 5 5 5 6

(30)

3.2 Tahap-Tahap Penelitian

Langkah-langkah dalam penelitian ini akan digambarkan pada Gambar 3.1

Gambar 3. 1 Skema Penelitian

3.2.1 Data Mentah

Data mentah dalam penelitian ini adalah data public yang didapatkan dengan mengunduh dari website Kaggle.com.

3.2.2 Preprocessing

a. Data Cleaning

Data cleaning digunakan untuk membersihkan noise, data yang inkonsisten, dan missing value. Proses pengecekan missing

value pada dataset yang digunakan untuk penelitian ini dilakukan

dengan menggunakan python, dan hasilnya tidak ada missing value pada variabel yang akan terlihat pada gambar 3.2.

(31)

b. Transformasi Data

Transformasi data merupakan pengubahan atau penggabungan ke dalam format yang sesuai untuk diproses dalam

data mining. Pada penelitian ini digunakan normalisasi min-max

untuk mentransformasi data. Normalisasi data dilakukan dengan tujuan agar data pada pada setiap atribut memiliki bobot yang sama dengan batas atas dan batas bawah yang kita tentukan. Berikut merupakan atribut yang dilakukan proses normalisasi:

1. fixedAcidity 2. residualSugar 3. freeSulfurDioxide 4. totalSulfurDioxide 5. pH 6. alcohol

Berikut ini merupakan rumus normalisasi min-max dengan menggunakan transformasi linear:

𝑋𝐵 = _{𝑀𝑎𝑥(𝑋)−𝑀𝑖𝑛(𝑋)}𝑋−𝑀𝑖𝑛(𝑋) (𝑀𝑎𝑥_{𝑛𝑒𝑤𝐴}− 𝑀𝑖𝑛_{𝑛𝑒𝑤𝐴}) + 𝑀𝑖𝑛_{𝑛𝑒𝑤𝐴}…...(3.1)

Di mana: 𝑀𝑎𝑥_{𝑛𝑒𝑤𝐴} = 1 𝑀𝑖𝑛_{𝑛𝑒𝑤𝐴} = 0

Berdasarkan persamaan di atas, perhitungan untuk normalisasi atribut adalah sebagai berikut:

1. Normalisasi atribut fixedAcidity 𝑋𝐵 = 7,4 − 4,6

(32)

2. Normalisasi atribut residualSugar 𝑋𝐵 = 1,9 − 0,9

15,5 − 0,9(1 − 0) + 0 = 0,0684

3. Normalisasi atribut freeSulfurDioxide 𝑋𝐵 = 11 − 1

72 − 1(1 − 0) + 0 = 0,1408

4. Normalisasi atribut totalSulfurDioxide 𝑋𝐵 = 34 − 6

289 − 6(1 − 0) + 0 = 0,0989

5. Normalisasi atribut pH 𝑋𝐵 = 3,51 − 2,74

4,01 − 2,74(1 − 0) + 0 = 0,6062

6. Normalisasi atribut alcohol 𝑋𝐵 = 9,4 − 8,4

14,9 − 8,4(1 − 0) + 0 = 0,1538

3.2.3 Balancing Data

Setelah dilakukan preprocessing, tahap selanjutnya adalah

balancing data dengan membuat replikasi dari data minoritas. Data kualitas red wine memiliki distribusi data yang tidak seimbang yang akan

ditunjukkan pada gambar 3.4 berikut ini:

(33)

Pada gambar di atas terdapat data berjumlah 1599 records, dan memiliki 6 kelas yang merupakan kelas kualitas red wine. Kelas tersebut adalah 3 (undrinkable) yang digambarkan dengan warna hijau, 4 (undrinkable) digambarkan dengan warna abu-abu, 5 (pretty bad) digambarkan dengan warna biru tua, 6 (fair) digambarkan dengan warna merah tua, 7 (quaffable) digambarkan dengan warna biru muda, dan 8 (very

good) yang digambarkan dengan warna merah muda. Setelah itu dilakukan

proses balancing data menggunakan SMOTE yang ada di aplikasi WEKA, maka distribusi kelas data menjadi:

Gambar 3. 4 Distribusi Data Setelah Balancing

Pada gambar 3.5 ditunjukkan distribusi data pada variabel kelas 3 yang memiliki jumlah 360 data, kelas 4 yang memiliki data berjumlah 318, kelas 5 memiliki data berjumlah 681, kelas 6 memiliki data berjumlah 638, kelas 7 memiliki data berjumlah 199 data, dan kelas 8 memiliki data 648 data.

3.2.4 Model Random Forest

Data yang digunakan untuk penelitian ini akan diklasifikasi membentuk pohon keputusan dengan menggunakan method

RandomForestClassifier, dengan proses bootstrap dan aggregating, yaitu memilih data sample secara acak dari data set asli dan bisa memilih data

(34)

sample yang sama lebih dari satu kali.

Proses pembuatan pohon diawali dengan memilih atribut yang memiliki information gain tertinggi. Selanjutnya, penghitungan branch dan

leaf dilakukan secara rekursif sampai pohon keputusan terbentuk. Potongan source code yang digunakan untuk membangun model Random Forest

dapat dilihat pada gambar 3.6 berikut.

Gambar 3. 5 Source Code Random Forest

Berikut ini merupakan pseudocode untuk membuat sebuah pohon: 1. Ambil data random dari dataset yang ada.

2. Membuat node:

a. Menentukan median dari setiap atribut yang ada.

b. Menghitung nilai information gain dari setiap atribut berdasarkan pembagian seluruh data menjadi dua kategori (berdasarkan nilai median).

c. Memilih atribut berdasarkan node nilai information gain tertinggi.

d. Menghitung nilai entropy untuk data yang di ambil. 3. Bagi data berdasarkan node pada penghitungan nomor 2.

4. Ulangi langkah ke-2 dengan data nomor 3, sampai data tersisa satu atau lebih, namun kategori data tidak bisa di bagi lagi.

Berikut ini merupakan contoh pembentukan pohon dengan data sebagai berikut:

Tabel 3. 3 Sampel Data Red Wine

volatileAcidity citricAcid sulphates alcohol quality

0.61 0.49 0.63 8.4 3

0.58 0.66 0.57 9 3

(35)

0.76 0.04 0.65 9.8 5 0.38 0.31 0.76 11.3 8 0.88 0 0.68 9.8 5 0.33 0.33 1.1 10 8 1.185 0 0.54 10.7 3 0.56 0.28 1.28 9.3 5 0.7 0 0.56 9.4 5 0.59 0.08 0.5 9 4 0.88 0 0.68 9.8 5

a. Menentukan Node Pertama/Root Node

Setelah dilakukan proses bootstrap dan aggregating, terdapat

random dataset yang digunakan untuk membentuk model pohon pertama.

Data tersebut adalah:

Tabel 3. 4 Data Random untuk Root Node

0.7 0 0.56 9.4 5 0.59 0.08 0.5 9 4 0.58 0.66 0.57 9 3 0.44 0.42 0.86 9.5 3 0.76 0.04 0.65 9.8 5 0.38 0.31 0.76 11.3 8 0.88 0 0.68 9.8 5

(36)

Tabel 3. 5 Penghitungan Node Pertama Atribut Partisi Total

Kasus 3 4 5 8 Entropy Information Gain Total 7 2 1 3 1 1.84237099 volatileAcidity <= 0.59 4 2 1 0 1 0 1.842370993 > 0.59 3 0 0 2 0 0 citricAcid <= 0.08 4 0 1 3 0 0 1.842370993 > 0.08 3 2 0 0 1 0 sulphates <= 0.65 4 1 1 2 0 0 1.842370993 > 0.65 3 1 0 1 1 0 alcohol <= 9.8 6 1 1 3 1 1.79248125 0.305958493 > 9.8 1 1 0 0 0 0

Berdasarkan hasil perhitungan pada tabel 3.6, atribut yang dipilih untuk dijadikan node adalah sulphates, karena memiliki nilai information

gain tertinggi, dan jika ada nilai information gain yang sama, maka dipilih

salah satu. Root node yang terbentuk pada perhitungan di atas, ditampilkan pada gambar 3.7 berikut ini :

Gambar 3. 6 Root Node Hasil Perhitungan

b. Menentukan Node Kedua

Dilakukan proses bootstrap dan aggregating untuk menentukan node kedua. Data hasil proses bagging ditampilkan pada tabel 3.7 berikut:

(37)

Tabel 3. 6 Random Dataset untuk Node Kedua volatileAcidity citricAcid sulphates alcohol quality

0.88 0 0.68 9.8 5 0.7 0 0.56 9.4 5 0.88 0 0.68 9.8 5 0.58 0.66 0.57 9 3 0.44 0.42 0.86 9.5 3 1.185 0 0.54 10.7 3 0.61 0.49 0.63 8.4 3 0.38 0.31 0.76 11.3 8 0.59 0.08 0.5 9 4

Dari random data set di atas, dilakukan penghitungan entropy dan

information gain. Information gain yang memiliki nilai tertinggi kemudian

diambil untuk dijadikan sebagai node kedua. Penghitungannya adalah sebagai berikut :

Tabel 3. 7 Penghitungan Node Kedua Atribut Partisi Total

Kasus 3 4 5 8 Entropy Information Gain Total 9 4 1 3 1 1.75271528 volatileAcidity <= 0.61 5 3 1 0 1 0 1.752715279 > 0.61 4 1 0 3 0 0 citricAcid <= 0.08 5 1 1 3 0 0 1.752715279 > 0.08 4 3 0 0 1 0

(38)

sulphates <= 0.63 5 3 1 1 0 0 1.752715279 > 0.63 4 1 0 1 1 0 alcohol <= 9.5 5 3 0 1 0 0 2.641604168 > 9.5 4 1 1 2 1 2

Berdasarkan hasil penghitungan di atas, diperoleh atribut dengan nilai information gain tertinggi yaitu alcohol. Dengan demikian, alcohol dijadikan sebagai node kedua yang akan ditunjukkan gambar 3.8 berikut :

Gambar 3. 7 Pohon Keputusan Node Kedua

c. Menentukan Node Ketiga

Dilakukan proses bootstrap dan aggregating untuk menentukan node ketiga. Data hasil proses bagging ditampilkan pada tabel 3.9.

Tabel 3. 8 Random Data set untuk Node Ketiga

1.185 0 0.54 10.7 3

0.56 0.28 1.28 9.3 5

0.7 0 0.56 9.4 5

0.59 0.08 0.5 9 4

(39)

diambil untuk dijadikan sebagai node ketiga. Penghitungannya adalah sebagai berikut :

Tabel 3. 9 Penghitungan Node Ketiga Atribut Partisi Total

Kasus 3 4 5 8 Entropy Information Gain Total 5 1 1 3 0 0 volatileAcidity <= 0.7 3 0 1 2 0 0 0 > 0.7 2 1 0 1 0 0 citricAcid <= 0 3 1 0 2 0 0 0 > 0 2 0 1 1 0 0 sulphates <= 0.56 4 1 1 2 0 0 0 > 0.56 1 0 0 1 0 0 alcohol <= 9.4 3 0 1 2 0 0 0 > 9.4 2 1 0 1 0 0

Berdasarkan perhitungan di atas, atribut yang dipilih untuk dijadikan node adalah volatileAcidity, jika ada nilai information gain yang sama, maka dipilih salah satu. Root node yang terbentuk pada perhitungan di atas, ditampilkan pada gambar 3.9 berikut ini :

(40)

Gambar 3. 8 Pohon Keputusan Node Ketiga d. Menentukan Node Keempat

Dilakukan proses bootstrap dan aggregating untuk menentukan node keempat. Data hasil proses bagging ditampilkan pada tabel 3.11.

Tabel 3. 10 Random Data set untuk Node Keempat volatileAcidity citricAcid sulphates alcohol quality

0.44 0.42 0.86 9.5 3

0.33 0.33 1.1 10 8

1.185 0 0.54 10.7 3

0.56 0.28 1.28 9.3 5

0.7 0 0.56 9.4 5

diambil untuk dijadikan sebagai node keempat. Penghitungannya adalah sebagai berikut :

Tabel 3. 11 Penghitungan Node Keempat Atribut Partisi Total

Kasus 3 4 5 8 Entropy Information Gain Total 5 2 0 2 1 0 volatileAcidity <= 3 1 0 1 1 0 0

(41)

0.56 > 0.56 2 1 0 1 0 0 citricAcid <= 0.28 3 1 0 2 0 0 0 > 0.28 2 1 0 0 1 0 sulphates <= 0.86 3 2 0 1 0 0 0 > 0.86 2 0 0 1 1 0 alcohol <= 9.5 3 1 0 2 0 0 0 > 9.5 2 1 0 0 1 0

Berdasarkan perhitungan di atas, atribut yang dipilih untuk dijadikan node adalah citricAcid, jika ada nilai information gain yang sama, maka dipilih salah satu. Root node yang terbentuk pada perhitungan di atas, ditampilkan pada gambar 3.10 berikut ini :

(42)

e. Menentukan Node Kelima

Dilakukan proses bootstrap dan aggregating untuk menentukan node kelima. Data hasil proses bagging ditampilkan pada tabel 3.13.

Tabel 3. 12 Random Data set untuk Node Kelima

0.61 0.49 0.63 8.4 3

0.58 0.66 0.57 9 3

Setiap kali data yang tersisa memiliki nilai atribut kelas yang sama, maka atribut kelas dijadikan leaf node dengan nilai kelas tersebut.

Gambar 3. 10 Pohon Keputusan Node Kelima

f. Menentukan Node Keenam

Dilakukan proses bootstrap dan aggregating untuk menentukan node keenam. Data hasil proses bagging ditampilkan pada tabel 3.14.

(43)

Tabel 3. 13 Random Data set untuk Node Keenam

0.88 0 0.68 9.8 5

Setiap kali data yang tersisa memiliki nilai atribut kelas yang sama, maka atribut kelas dijadikan leaf node dengan nilai kelas tersebut.

Gambar 3. 11 Pohon Keputusan Node Keenam

g. Menentukan Node Ketujuh

Dilakukan proses bootstrap dan aggregating untuk menentukan node ketujuh. Data hasil proses bagging ditampilkan pada tabel 3.15.

Tabel 3. 14 Random Data set untuk Node Ketujuh

0.33 0.33 1.1 10 8

(44)

node dengan nilai kelas yang tersisa.

Gambar 3. 12 Pohon Keputusan Node Ketujuh

h. Menentukan Node Kedelapan

Dilakukan proses bootstrap dan aggregating untuk menentukan node kedelapan. Data hasil proses bagging ditampilkan pada tabel 3.16.

Tabel 3. 15 Random Data set untuk Node Kedelapan

0.56 0.28 1.28 9.3 5

Setiap kali data tersisa satu, maka atribut kelas akan dijadikan leaf

(45)

Gambar 3. 13 Pohon Keputusan Node Kedelapan

Pohon keputusan sudah terbentuk dengan menerapkan proses

bagging, yaitu memilih data secara acak. Dengan demikian gambar 3.12

merupakan pohon terakhir yang terbentuk berdasarkan perhitungan pada contoh kasus ini.

3.3 Desain Antarmuka

(46)

3.3.1 Proses Input GUI

Pada proses input GUI, user melakukan input jumlah fold dan jumlah pohon.

3.3.2 Proses Output GUI

Keluaran yang didapatkan dari proses klasifikasi ini adalah hasil akurasi dari proses klasifikasi kualitas red wine, yang ditentukan berdasarkan jumlah fold dan jumlah pohon.

3.4 Spesifikasi Alat

1. Perangkat Keras:

a. Prosesor : AMD® Ryzen™ 3 2200U CPU 2.5GHz/3.4GHz

b. RAM : 8 GB

c. Hard Drive : 1 TB

2. Perangkat Lunak:

a. Sistem Operasi : Windows 10 Home, 64-bit b. Microsoft Excel 365

c. Spyder 4.1.4 d. WEKA 3.8.2

(47)

35

BAB IV

HASIL DAN ANALISIS SISTEM

4.1 Preprocessing

Pada tahap preprocessing dilakukan proses transformasi data dengan menggunakan normalisasi min-max untuk mentransformasikan data. Adapun atribut yang dilakukan proses normalisasi adalah totalSulfurDioxide dan alcohol. Pada tabel 4.2 di bawah ini diberikan data sebelum proses transformasi data.

Tabel 4. 1 Data Sebelum Transformasi

fixedAcidity residualSugar freeSulfurDioxide totalSulfurDioxide pH alcohol

7.4 1.9 11 34 3.51 9.4

7.8 2.6 25 67 3.2 9.8

7.8 2.3 15 54 3.26 9.8

11.2 1.9 17 60 3.16 9.8

7.4 1.9 11 34 3.51 9.4

Berikut merupakan data setelah dilakukan proses transformasi:

Tabel 4. 2 Data Setelah Transformasi

fixedAcidity residualSugar freeSulfurDioxide totalSulfurDioxide pH alcohol

0.24779 0.06849 0.14085 0.09894 0.6063 0.15385 0.28319 0.11644 0.33803 0.21555 0.3622 0.21538 0.28319 0.09589 0.19718 0.16961 0.40945 0.21538 0.58407 0.06849 0.22535 0.19081 0.33071 0.21538 0.24779 0.06849 0.14085 0.09894 0.6063 0.15385 4.2 Pengujian

Data yang digunakan pada tahap pengujian merupakan data yang tidak melalui proses balancing, dan data yang melalui proses balancing dengan jumlah data yang digunakan sebanyak 2844 records dengan jumlah atribut sebanyak 12

(48)

atribut. Penulis melakukan 11 percobaan dengan menggunakan kombinasi pohon 2n_{, di mana n = 1,2, …, 11, dan model yag digunakan adalah 3-fold, 5-fold, 7-fold,} 9-fold, dan 11-fold dengan ketentuan yang akan dijelaskan pada tabel 4.4 berikut ini:

Tabel 4. 3 Ketentuan Pengujian Fold

Fold Training Testing

3 2/3 1/3

5 4/5 1/5

7 6/7 1/7

9 8/9 1/9

11 10/11 1/11

4.2.1 Percobaan dengan 3-fold

Percobaan dengan model 3-fold dapat dilihat pada tabel 4.5 berikut ini:

Tabel 4. 4 Percobaan 3-fold Percobaan

ke Pohon

Akurasi Data Sebelum Balancing

Akurasi Data Sesudah Balancing 1 2 56.9106 65.4008 2 4 61.1632 73.1013 3 8 64.5403 76.5471 4 16 65.4159 78.0591 5 32 67.3546 79.0788 6 64 67.2295 79.5007 7 128 68.1676 80.1688 8 256 68.1676 80.6962 9 512 68.0425 80.5204 10 1024 68.5428 80.4501 11 2048 68.7305 80.3446

(49)

yang dilakukan proses balancing dengan jumlah pohon 256 dengan akurasi 80,6962%. Grafik dari hasil percobaan 3-fold akan ditunjukkan pada gambar 4.1 berikut ini:

Gambar 4. 1 Grafik Percobaan 3-fold

ke Pohon

Akurasi Data Sesudah Balancing 1 2 55.972 68.5651 2 4 61.9126 73.8398 3 8 65.4769 76.8634 4 16 67.4159 78.5161 5 32 68.8544 79.5359 6 64 69.6046 80.9069 7 128 69.2302 80.8366 8 256 69.1679 81.4341 0 10 20 30 40 50 60 70 80 90 2 4 8 16 32 64 128 256 512 1024 2048 A ku rasi Jumlah Pohon

3-fold

(50)

9 512 69.855 81.2933

10 1024 69.7927 81.2583

11 2048 69.9177 81.5746

Berdasarkan tabel 4.6 di atas, akurasi tertinggi didapatkan dari data yang dilakukan proses balancing dengan jumlah pohon 2048 dengan akurasi 81,5746%. Grafik dari hasil percobaan 5-fold akan ditunjukkan pada gambar 4.2 berikut ini:

Percobaan dengan model 7-fold dapat dilihat pada tabel 4.7 berikut:

ke Pohon

Akurasi Data Sesudah Balancing 1 2 59.1616 67.3341 2 4 64.4778 75.1044 3 8 66.6683 77.7065 0 10 20 30 40 50 60 70 80 90 2 4 8 16 32 64 128 256 512 1024 2048 A ku rasi Jumlah Pohon

5-fold

(51)

4 16 68.1682 79.5007 5 32 69.1686 80.6967 6 64 70.0449 80.8373 7 128 70.8567 81.2237 8 256 71.0439 81.3644 9 512 70.7309 81.2943 10 1024 70.7941 81.5405 11 2048 70.7943 81.7162

0 10 20 30 40 50 60 70 80 90 2 4 8 16 32 64 128 256 512 1024 2048 A ku rasi Jumlah Pohon

7-fold

(52)

ke Pohon

Akurasi Data Sesudah Balancing 1 2 57.9174 68.7764 2 4 65.6069 74.6835 3 8 68.0445 77.6371 4 16 69.7927 79.6765 5 32 69.919 80.5907 6 64 71.106 81.4346 7 128 70.4208 81.5752 8 256 70.7957 81.5752 9 512 71.1071 81.7862 10 1024 70.8567 81.7862 11 2048 70.5439 81.7511

(53)

Percobaan dengan model 11-fold dapat dilihat pada tabel 4.9 berikut ini:

Tabel 4. 8 Percobaan 11-fold Percobaan ke Pohon Akurasi Data Sebelum Balancing Akurasi Data Sesudah Balancing 1 2 57.9731 69.6547 2 4 63.0433 74.1911 3 8 67.2319 78.1976 4 16 69.3619 79.7469 5 32 70.6068 80.4857 6 64 71.0456 81.9625 7 128 71.7336 82.2773 8 256 71.6091 81.9612 9 512 71.3583 82.0318 10 1024 71.4832 82.3478 11 2048 71.7971 82.2075 0 10 20 30 40 50 60 70 80 90 2 4 8 16 32 64 128 256 512 1024 2048 A ku rasi Jumlah Pohon

9-fold

(54)

4.3 Evaluasi Hasil Pengujian

Dari hasil pengujian pada dua dataset dengan menggunakan model

3-fold, 5-3-fold, 7-3-fold, 9-3-fold, dan 11-fold tersebut, penulis mendapatkan hasil

terbaik yang diperoleh dari 11-fold, dan jumlah pohon 1024 dengan akurasi 82.3478%. Berikut ini grafik hasil percobaan menggunakan 3-fold, 5-fold,

7-fold, 9-7-fold, dan 11-fold:

0 10 20 30 40 50 60 70 80 90 2 4 8 16 32 64 128 256 512 1024 2048 A ku rasi Jumlah Pohon

11-fold

(55)

Gambar 4. 6 Kesimpulan Hasil Pengujian

Grafik percobaan di atas berisi hasil akurasi terbesar dari data asli sebelum balancing dan data setelah balancing. Pengujian data dilakukan menggunakan 3-fold, 5-fold, 7-fold, 9-fold, dan 11-fold. Berdasarkan grafik pada gambar 4.6 didapatkan hasil jika akurasi terbaik didapatkan setelah data melalui proses balancing, dengan ditunjukannya akurasi yang lebih baik untuk data yang telah dilakukan proses balancing.

Hasil confusion matrix dari akurasi terbesar dapat dilihat pada tabel 4.10 sampai 4.20, dengan kolom berwarna biru merupakan data yang dianggap benar, sedangkan kolom berwarna abu-abu merupakan data yang di anggap salah.

Tabel 4. 9 Hasil Fold Pertama

Label 3 4 5 6 7 8 3 38 0 0 0 0 0 4 2 24 1 2 0 0 5 1 2 44 11 0 0 6 0 1 13 39 2 3 7 0 0 1 8 8 1 8 0 0 0 1 0 57 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 38 + 24 + 44 + 39 + 8 + 57 38 + 29 + 58 + 58 + 18 + 58× 10 = 81.08108% 60 65 70 75 80 85 3 5 7 9 11 A ku rasi Fold

Kesimpulan Hasil Pengujian

(56)

Tabel 4. 10 Hasil Fold Kedua Label 3 4 5 6 7 8 3 35 0 0 0 0 0 4 0 24 2 1 0 0 5 1 2 48 14 0 0 6 0 2 11 45 1 1 7 0 0 0 5 11 2 8 0 0 0 1 1 52 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =35 + 24 + 48 + 45 + 11 + 52 35 + 27 + 65 + 60 + 18 + 54× 100% = 83,01158%

Tabel 4. 11 Hasil Fold Ketiga

Label 3 4 5 6 7 8 3 29 0 0 0 0 0 4 0 25 3 0 1 0 5 0 3 53 12 0 0 6 0 1 10 39 2 0 7 0 0 1 4 11 2 8 0 0 0 0 0 63 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =29 + 25 + 53 + 39 + 11 + 63 29 + 29 + 68 + 52 + 18 + 63× 100% = 84,94208%

Tabel 4. 12 Hasil Fold Keempat

Label 3 4 5 6 7 8 3 40 0 0 0 0 0 4 0 25 5 1 0 0 5 2 2 51 5 0 0 6 0 2 12 39 1 2 7 0 0 1 4 13 2 8 0 0 0 0 0 52 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =40 + 25 + 51 + 39 + 13 + 52 40 + 31 + 60 + 56 + 20 + 52× 100% = 84,94208%

(57)

Tabel 4. 13 Hasil Fold Kelima Label 3 4 5 6 7 8 3 26 0 0 0 0 0 4 1 21 3 1 0 0 5 0 2 52 11 0 0 6 0 1 18 43 4 1 7 0 0 0 6 8 0 8 0 0 0 0 0 61 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 26 + 21 + 52 + 43 + 8 + 61 26 + 26 + 65 + 67 + 14 + 61× 100% = 81,46718%

Tabel 4. 14 Hasil Fold Keenam

Label 3 4 5 6 7 8 3 29 0 0 0 0 0 4 1 28 3 0 0 0 5 0 2 50 9 0 1 6 0 1 13 40 6 2 7 0 0 0 7 6 3 8 0 0 0 0 0 58 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 29 + 28 + 50 + 40 + 6 + 58 29 + 32 + 62 + 62 + 16 + 58× 100% = 81,46718%

Tabel 4. 15 Hasil Fold Ketujuh

Label 3 4 5 6 7 8 3 27 0 1 0 0 0 4 1 20 2 2 0 0 5 1 2 47 9 2 0 6 0 1 16 41 2 2 7 0 0 1 10 9 2 8 0 0 0 0 0 60 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 27 + 20 + 47 + 41 + 9 + 60 28 + 25 + 61 + 62 + 22 + 60× 100% = 79,06976%

(58)

Tabel 4. 16 Hasil Fold Kedelapan Label 3 4 5 6 7 8 3 44 0 0 0 0 0 4 0 25 1 1 0 0 5 0 4 59 7 0 0 6 0 2 3 36 3 2 7 0 0 1 6 2 1 8 0 0 0 0 0 61 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 44 + 25 + 59 + 36 + 2 + 61 44 + 27 + 70 + 46 + 10 + 61× 100% = 87,98449%

Tabel 4. 17 Hasil Fold Kesembilan

Label 3 4 5 6 7 8 3 32 0 1 0 0 0 4 2 30 7 3 0 0 5 0 2 39 14 1 0 6 1 0 7 35 1 5 7 0 0 1 6 11 1 8 0 0 0 0 0 59 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =32 + 30 + 39 + 35 + 11 + 59 33 + 42 + 56 + 49 + 19 + 59× 100% = 79,84496%

Tabel 4. 18 Hasil Fold Kesepuluh

Label 3 4 5 6 7 8 3 31 0 2 0 0 0 4 0 20 1 0 0 0 5 0 3 44 8 0 0 6 1 3 12 49 2 2 7 0 1 2 8 10 0 8 0 0 0 0 0 59 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =31 + 20 + 44 + 49 + 10 + 59 33 + 21 + 55 + 69 + 21 + 59× 100% = 82,55813%

(59)

Tabel 4. 19 Hasil Fold Kesebelas Label 3 4 5 6 7 8 3 25 0 0 0 0 0 4 1 23 5 0 0 0 5 1 2 51 7 0 0 6 1 1 14 39 2 0 7 0 0 1 14 4 4 8 0 0 0 0 0 63 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 25 + 23 + 51 + 39 + 4 + 63 25 + 29 + 61 + 57 + 23 + 63× 100% = 79,45736% 𝑡𝑜𝑡𝑎𝑙 𝑎𝑘𝑢𝑟𝑎𝑠𝑖 =905,82592 11 = 82,34781%

Penentuan hasil klasifikasi pada metode random forest ditentukan menggunakan voting berdasarkan pendapat terbanyak dari jumlah pohon yang ditentukan. Pada gambar 4.7 di bawah ini merupakan hasil cetak pohon ke-2 dari 1024 pohon yang diperoleh dari model 11-fold. Pada gambar 4.7 di bawah ini pohon dibuat berdasarkan atribut-atribut yang dipilih setelah proses

bootstrap dan aggregating yang digambarkan melalui proses penentuan akar

(terletak di bagian teratas pada struktur pohon), kemudian dilanjutkan dengan pembentukan node percabangan berdasarkan atribut yang telah ditentukan.

Berdasarkan pada proses pembuatan pohon, sebuah node dibentuk berdasarkan atribut dengan nilai information gain tertinggi atau jika ada atribut yang memiliki nilai information gain yang sama, maka di ambil salah satu atribut, misalnya saja pada node pertama gambar 4.7 atribut yang memiliki nilai tertinggi adalah sulphates dengan median <= 0,63. Nilai

entropy pada node ini adalah 2,47 dengan sample data yang digunakan adalah

1610, dan terklasifikasi sebagai kelas 5.

Setelah itu node berikutnya dibentuk dari data pada node sebelumnya yang di bagi menjadi dua (ke kanan atau ke kiri) dengan cara penentuan atribut yang sama dari node sebelumnya. Sebagai contoh pada node kedua

(60)

yang memiliki data berjumlah 809 data. Atribut yang memiliki nilai

information gain tertinggi adalah volatileAcidity dengan median <= 0,74.

Pada node ini nilai entropy adalah 2,1 dan terklasifikasi sebagai kelas 5. Pembentukan node akan dilakukan dengan membagi jumlah data pada sebelumnya menjadi 2 (ke kiri atau ke kanan). Pembentukan node akan berhenti jika hanya tersisa 1 data dari data yang ada, atau kategori data (dibuat berdasarkan nilai median atribut) tidak bisa dibagi lagi. Misalnya saja ada node yang memiliki 3 sample data yang kemudian sample data ini di bagi menjadi dua, yaitu 2 data dan 1 data. Kedua node ini merupakan node terakhir, sehingga jika hanya tersisa 2 data dan 1 data, maka akan langsung berhenti. Proses klasifikasi pada random forest berawal dari memecah data

sample ke dalam tree secara acak. Setelah pohon terbentuk, maka akan

dilakukan voting pada setiap kelas pada data sample. Selanjutnya adalah mengkombinasi vote dari setiap kelas, kemudian di ambil suara terbanyak dari vote tersebut, sehingga akan menghasilkan vote yang terbaik.

(61)

(62)

50

BAB V

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Hasil penelitian penerapan metode random forest untuk mengklasifikasi kualitas red wine ini menghasilkan kesimpulan sebagai berikut:

1) Metode random forest dapat digunakan untuk melakukan klasifikasi kualitas red wine. Jumlah pohon tidak mempengaruhi akurasi hasil klasifikasi. Semakin tinggi fold yang digunakan maka semakin baik pula akurasi yang didapatkan.

2) Akurasi klasifikasi terbaik yang dihasilkan oleh metode random forest terhadap data kualitas red wine adalah 82,3478% yang didapatkan pada pengujian menggunakan data yang telah dilakukan proses balancing dengan 11-fold dan jumlah pohon 1024.

3) Proses balancing menggunakan SMOTE dapat meningkatkan akurasi hasil klasifikasi.

5.2 Saran

Penelitian penerapan metode random forest untuk klasifikasi kualitas red

wine ini memberikan saran untuk pengembangan penelitian yang akan datang,

yaitu:

1) Penelitian menggunakan algoritma klasifikasi yang berbeda. 2) Penelitian menggunakan teknik balancing yang berbeda.