Perbandingan Metode Klasifikasi Untuk Deteksi Stress Pada Mahasiswa di Perguruan Tinggi

(1)

Perbandingan Metode Klasifikasi Untuk Deteksi Stress Pada Mahasiswa di Perguruan Tinggi

Merlinda Wibowo^*, Muh. Rizieq Fazlulrahman Djafar

Fakultas Informatika, Program Studi Teknik Informatika, Institut Teknologi Telkom Purwokerto, Purwokerto, Indonesia Email: ^1,*[email protected], ²[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Adanya pandemi COVID-19 yang merebak semakin mempengaruhi tingginya tingkat stress pada manusia. Sress akibat pandemi ini terjadi juga khususnya pada mahasiswa. Stress ini disebabkan oleh mahasiswa yang mengahabiskan terlalu banyak waktu untuk belajar secara daring. Pemanfaatan data mahasiswa dapat berperan sebagai alat untuk mengidentifikasi stress pada mahasiswa dengan mengolahnya melalui berbagai metode machine learning. Metode ini dapat digunakan untuk mengekstraksi informasi dan menemukan pola dan informasi dari data tersebut. Teknik klasifikasi digunakan sebagai pengelompokan data bedasarkan pemetaan data menjadi data sampel. Beberapa metode klasifikasi yang digunakan dalam penelitian ini, yaitu Naïve Bayes, Decision Tree, Support Vector Machine (SVM), Neural Network, Random Tree, Random Forest, dan K Nearest Neighbor (KNN). Metode-metode tersebut berhasil dibandingkan untuk menentukan metode mana yang merupakan metode terbaik sebagai metode untuk mendeteksi stress yang tepat dan akurat berdasarkan hasil kinerja klasifikasi masing masing metode. Random Tree dan Decision tree terpilih sebagai metode terbaik pada hasil perbadingan kinerja ini dengan penggunaan split 80:20 mencapai hingga 100%.

Kata Kunci: Klasifikasi; Deteksi Stress; Naïve Bayes; Decision Tree; Support Vector Machine; SVM; Neural Network;

Random Tree; Random Forest; dan K-Nearest Neighbor; KNN; Data Mining; Machine Learning; Deep Learning.

Abstract−The outbreak of the COVID-19 pandemic is increasingly affecting the high level of stress in humans. Stress due to this pandemic has also occurred, especially for students. This stress is caused by students spending too much time studying online. Using student data can act as a tool to identify student stress by processing it through various machine-learning methods.

This method can extract information and find patterns and information from the data. Classification techniques are used as data groupings based on mapping data into sample data. This study used several classification methods: Naïve Bayes, Decision Tree, Support Vector Machine (SVM), Neural Network, Random Tree, Random Forest, and K Nearest Neighbor (KNN). These methods were successfully compared to determine which is the best for detecting stress precisely and accurately based on the classification performance results of each method. Random Tree and Decision tree were chosen as the best methods for the results of this performance comparison with an 80:20 split reaching up to 100%.

Keywords: Classification; Stress Detection; Naïve Bayes; Decision Tree; Support Vector Machine; SVM; Neural Network;

Random Tree; Random Forest; dan K-Nearest Neighbor; KNN; Mining Data; Machine Learning; Deep Learning

1. PENDAHULUAN

Stress dapat dikatakan menjadi bagian umum yang terkadang muncul saat kondisi tertentu pada manusia. Stress sendiri dapat dikatakan sebagai sebuah kondisi negatif yang memicu kebiasaan baru pada manusia. Kebiasaan baru ini secara tidak langsung memicu obesitas, penyakit kardioviskular, resiko kanker, dan efek tidak sehat yang lainnya [1]. Pandemi Covid-19 yang mulai pada akhir tahun 20019 menjadi salah satu pemicu ledakan jumlah orang yang terkena dampak stress. American Psychological Association (APA) melaporkan bahwa tercatat 84%

dari responden menyatakan bahwa ketidaknyamanan serta kegelisahan yang meningkat semenjak pandemi terjadi [2]. Ketakutan, kesedihan, dan kemarahan adalah tiga hal yang paling sering mereka rasakan, dan memungkinkan memicu stress. Stress dapat terjadi pada semua rentang usia, bahkan pada usia muda. Pembelajaran daring menjadi salah satu penyebab mahasiswa mengalami stress [3]. Menatap monitor pada waktu yang lama saat pembelajaran daring dianggap memicu kecemasan pada mahasiswa [4]. Pada saat pembelajaran mulai dilakukan secara luring, pihak kampus sudah seharusnya memperhatikan kesehatan mental mahasiswa. Pihak kampus seharusnya dapat mengetahui mahasiswa yang terkena stress selama pembelajaran daring, agar dapat memberikan perlakuan yang sesuai kepada mahasiswa saat memulai pembelajaran secara blended bahkan sepenuhnya luring.

Deteksi stress yang dilakukan oleh Bobade dan Vani melakukan proses monitor menggunakan three axis acceleration (ACC), body temperature (TEMP), respiration (RESP), electromyogram (EMG), dan electrodermal activity (EDA). Proses monitor tersebut dapat mendeteksi tiga kondisi yakni senang, normal, dan stress. Machine learning dan deep learning digunakan untuk mendeteksi ketiga hal tersebut dengan hasil akurasi diatas 80% untuk masing-masing metode [5]. Montesinos et al menggunakan dua wearable devices untuk menghasilkan multimodal dataset. Dataset yang dihasilkan oleh dua wearable devices tersebut dapat dijadikan patokan untuk mendeteksi stress dan mencapai akurasi klasifikasi sebesar 84.1% [6]. Namun, dari dua penelitian tersebut masih dapat dikembangkan untuk meningkatkan nilai akurasinya serta diterapkan pada studi kasus yang lain yakni di institusi pendidikan terkait. Selain itu, masih perlu dilakukan deployment atau penerapan hasil klasifikasi untuk dapat melakukan deteksi secara realtime.

Berdasarkan permasalahan terkait stress yang dihadapi mahasiswa semenjak pembelajaran daring maka metode machine learning dan deep learning dapat digunakan untuk mendeteksi kondisi stress seorang mahasiswa secara realtime. Selain itu, penelitian ini bertujuan untuk mendeteksi stress pada mahasiswa dengan menggunakan

(2)

Merlinda Wibowo, Copyright © 2023, MIB, Page 154 multimodal dataset yang dihasilkan dari wearable device untuk memberikan nilai keakuratan yang lebih tinggi dengan adanya data yang beragam sebagai parameternya. Kemudian metode machine learning dan deep learning digunakan untuk klasifikasi dari tingkat stress pada penelitian ini. Hasilnya nanti dapat langsung diterapkan di insitusi terkait sebagai persiapan dari jalannya proses pembelajaran yang lebih baik.

Machine learning adalah jenis kecerdasan buatan yang memiliki kemampuan untuk belajar dari data, tanpa eksplisit dan akan mengikuti instruksi yang telah diprogramkan. Beberapa metode dari machine learning yang sering digunakan pada proses klasifikasi dan perbandingan metode seperti Decision Tree, Naïve Bayes, Support Vector Machine (SVM), Neural Network, Random Tree, Random Forest dan K-Nearest Neighbor (KNN) [7], [8]

serta metode deep learning seperti Convolutional Neural Network (CNN).

Deep Learning merupakan cabang machine learning berbasis Jaringan Saraf Tiruan [9]. Metode ini dapat digunakan pada pembelajaran terarah (supervised learning), pembelajaran tak terarah (unsupervised learning) dan semi terarah (semi-supervised learning), yang dapat digunakan juga di berbagai aplikasi, seperti pengenalan citra maupun suara, mengklasifikasi teks, dan lain – lain.

Penelitian terdahulu yang memanfaatkan metode klasifikasi dilakukan oleh Riri Nada Devita, dkk dalam jurnalnya mendapatkan kesimpulan bahwa, kinerja dari metode Naive Bayes lebih unggul dari metode K-Nearest Neighbor. Dari 40 data uji yang digunakan metode Naive Bayes mampu mengklasifikasikan artikel jurnal berbahasa Indonesia sebanyak 28 dokumen. Sedangkan untuk metode K-Nearest Neighbor dari 40 data uji metode ini hanya dapat mengklasifikasikan artikel jurnal berbahasa Indonesia sebanyak 16 dokumen.

Penelitian selanjutnya tentang penerapan machine learning adalah untuk menentukan minat siswa dalam menentukan jurusan [A]. Penelitian ini menggunakan Algoritma Decision Tree, KNN, dan Naïve Bayes. Dari hasil pengujian tiga algoritma yang digunakan, kinerja algoritma decision tree menjadi yang terbaik dibandingkan dengan algoritma KNN dan Naïve bayes dengan tingkat akurasi 75.38% dan nilai AUC 0.689.

Berdasarkan uraian diatas, penelitian ini melakukan perbandingan kinerja dari metode-metode klasifikasi untuk mengetahui metode mana yang menghasilkan kinerja yang terbaik. Metode-metode klasifikasi yang dipilih adalah metode yang populer digunakan untuk proses klasifikasi dan sering digunakan pada proses perbandingan metode. Penelitian ini akan menggunakan beberapa metode klasifikasi data mining, antara lain Naïve Bayes, Decision Tree, SVM, Neural Network, Random Tree, Random Forest, dan KNN [7]–[10][11]–[14]. Metode klasifikasi yang terpilih akan digunakan sebagai metode yang terbaik dalam membantu untuk mendeteksi stress pada mahasiswa.

2. METODOLOGI PENELITIAN

Metode penelitian dibuat untuk membantu agar penelitian menjadi terencana dan sistematis. Gambar 1 menunjukan langkah-langkah yang dilakukan pada penelitian ini. Langkah-langkah tersebut meliputi data collection, data pre- processing, features extraction, stress detection classifier, performance evaluation.

Gambar 1. Alur Penelitian yang diawali dengan Data Collection sampai Proses Klasifikasi 2.1 Data Collection

Tahap pertama dari penelitian ini adalah pengumpulan data,. Data yang dikumpulkan merupakan data dari Heart Rate Variability (HRV) dan Electrodermal Activity (EDA). Beberapa sampel data dapat dilihat pada gambar 2.

Data Collection Data Electrodiogram

Data Empatica E4

Pra-pemrosesan Data Integrasi Data

Pembersihan Data

Transformasi Data

Seleksi Data

Data Master

Proses Klasifikasi Pembagian Data Latih dan Uji

Evaluasi dan Validasi

Visualisasi dengan Grafik

Perbandingan Hasil Klasifikasi (Confusion Matrix):

Akurasi, Recall, Precision, dan F1-score

Hasil dan Pembahasan Proses Penentuan Deteksi Stress

Metode Klasifikasi Naïve Bayes Neural

Network SVM Random Forest

Random Tree

Decission Tree

(3)

2.2 Data Pre- Processing

Setelah data terkumpul, data akan diolah terlebih dahulu. Data mentah yang diperoleh dari perangkat yang digunakan seperti denyut nadi, suhu tubuh, dan lain lain akan diproses. Pra-pemrosesan data digunakan untuk meningkatkan akurasi perbandingan metode klasifikasi berdasarkan data yang disajikan [7]. Semua data yang ditampilkan masih dalam bentuk mentah dan perlu diintegrasikan, dibersihkan, ditransformasikan, kemudian diseleksi berdasarkan atribut data yang disesuaian dengan kebutuhan proses selanjutnya.

(1) (2)

(3) (4)

Gambar 3. (1) Hasil Klasifikasi Metode Naïve Bayes; (2) Hasil Klasifikasi Metode SVM; (3) Hasil Klasifikasi Metode Decision Tree; (4) Hasil Klasifikasi Metode Random Forest

2.3 Features Extraction

Langkah kedua adalah features extraction, fitur-yang membedakan kondisi stress dan tidak diekstrasi dari data yang telah diproses sebelumnya [11]. Karakteristik seperti dnyut nadi rata-rata dan suhu tubuh berfungsi sebagai ciri pembeda.

2.4 Stress Detection Classifier

Pada langkah ketiga, data yang telah ada dan fitur yang telah diekstrak akan dilakukan klasifikasi menggunakan machine learning dan deep learning. Beberapa metode dibandingkan untuk mendapatkan metode yang terbaik yang kemudian dapat diimplementasikan sebagai proses klasifikasi untuk membantu identifikasi stress pada mahasiswa. Metode yang dipakai antara lain Decision Tree, Naïve Bayes, Support Vector Machine (SVM), Neural Network, Random Tree, Random Forest dan K-Nearest Neighbor (KNN) [7], [12] serta metode deep learning seperti Convolutional Neural Network (CNN) [11]. Proses klasifikasi, data dibagi menjadi dua bagian yaitu data latih dan data uji dengan presentase perbandingan adalah 80:20. Prosedur pembagian data ini dapat mendukung kinerja dari proses klasifikasi agar cepat dan lebih akurat [7], [12].

2.4.1. Classification

Sebelum melalui proses klasifikasi, data dibagi menjadi dua bagian yaitu data latih dan data uji dengan presentase perbandingan adalah 70:30. Prosedur pembagian data ini dapat mendukung kinerja dari proses klasifikasi agar cepat dan lebih akurat.

a. Naïve Bayes

Naïve Bayes merupakan salah satu metode dalam klasifikasi yang dapat menggunakan pengetahuan probabilitas dan statistik dengan menerapkan teorema Bayes dalam berbagai bidang [3], [13]–[15].Teorema Bayes dapat digambarkan pada rumus berikut:

(4)

p(E) (1)

𝑃(𝐻|𝐸) merupakan probabilitas akhir bersyarat suatu hipotesis H terjadi jika diberikan bukti E. Sedangkan, 𝑃(𝐸|𝐻) menunjukkan probabilitas sebuah bukti E terjadi akan memengaruhi hipotesis H. 𝑃(𝐻) adalah probabilitas awal (priori) hipotesis H terjadi tanpa memandang bukti apapun. Selanjutnya, (𝐸) merupakan probabilitas awal (priori) bukti E terjadi tanpa memandang hipotesis atau bukti yang lain. Pada metode ini, diperlukan untuk mengasumsikan bentuk tertentu dari distribusi probabilitas untuk atribut numerik dan memperkirakan parameter distribusi dengan data pelatihan. Distribusi Gaussian biasanya dipilih untuk merepresentasikan probabilitas bersyarat dari fitur kontinu pada sebuah kelas 𝑃 (𝑋𝑖|𝑌), sedangkan distribusi Gaussian dikarakteristikkan dengan dua parameter yaitu mean dan varian. Pada setiap kelas 𝑦𝑗, probabilitas bersyarat kelas 𝑦𝑗 untuk fitur 𝑋𝑖 ditunjukkan pada rumus berikut:

𝑃 (𝑋𝑖=𝑥𝑖|𝑌=𝑦𝑖)= ¹

√2 π σ ij 𝑒𝑥𝑝 ^{(xi− μij)2}

22 σ2 ij (2)

Dimana, 𝑃 adalah peluang, 𝑋𝑖 merupakan atribut ke I, 𝑥𝑖 nilai atribut ke I, 𝑌 adalah kelas yang dicari, dan 𝑦𝑖 adalah sub kelas yang dicari. Kemudian, 𝜇 adalah rata-rata dari seluruh atribut dan 𝜎 merupakn standar deviasi pada varian dari seluruh atribut. Hal ini menunjukkan bahwa Naïve Bayes harus menggunakan semua atribut dalam data yang kemudian masing-masing akan dianalisis untuk menunjukkan pentingnya independensi setiap atribut [13], [15].

b. Decision Tree

Decision Tree menggunakan grafik seperti pohon dan bertindak sebagai sistem pendukung keputusan. Dalam metode ini, simpul internal akan menunjukkan pengujian pada atribut, cabang akan menandakan hasil pengujian, dan simpul daun menunjukkan label kelas. Pada pemilihan atribut dengan akar perlu adanya penentuan niai gain tertinggi dari atribut-atribut yang ada. Gain merupakan salah satu atribut seleksi ukuran yang digunakan untuk memilih atribut tes pada setiap node pada pohon [5], [7]. Berikut rumus yang dapat digunakan untuk memilih atribut tersebut yang ditunjukkan pada rumus dibawah ini.

𝐺𝑎in(𝑆|𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) - ∑ ^|si|

|s|

ni=1 * Entropy(S) (3)

Dimana, 𝑆 merupakan himpunan kasus, 𝐴 adalah atribut, dan n merupakan jumlah partisi atribut 𝐴.

Sedangkan, |𝑆𝑖| menunjukkan jumlah kasus pada partisi ke I dan |𝑆| jumlah kasus dalam 𝑆. Selain itu, untuk menghitung nilai entropi dapat dilihat pada rumus dibawah ini.

𝐸𝑛𝑡𝑟𝑜py(𝑆)= ∑ⁿ_i=1− pi * log2 pi (4)

Dimana, 𝑆 merupakan himpunan kasus, 𝐴 adalah atribut, dan n merupakan jumlah partisi 𝑆. Sedangkan, 𝑝𝑖 menunjukkan proporsi dari 𝑆𝑖 terhadap 𝑆.

c. Support Vector Machine (SVM)

SVM adalah salah satu metode klasifikasi yang mempunyai prinsip dasar linier classifier (kasus klasifikasi yang secara linier dapat dipisahkan). Namun, penambahan konsep kernel pada tempat kerja berdimensi tinggi dapat membantu dalam memecahkan masalah non-linier. Kernel dapat diartikan sebagai suatu fungsi yang memetakan ulang data pada ruang dimensi asal ke dalam ruang dimensi yang lebih baru untuk sementara. Metode ini termasuk metode yang sering dipakai untuk melakukan penentuan keputusan hingga proses prediksi dengan tingkat akurasi yang cukup tinggi [9], [11], [12], [16]. Metode ini akan memisahkan ruang atribut dengan hyperplane untuk memaksimalkan margin antara instance dari suatu kelas dengan nilai kelasnya [9]. Efisiensi algoritma ini tidak terlihat secara akan tetapi tergantung pada dimensi entitas yang diklasifikasikan secara akurat dan paling kuat daripada metode lainnya.

d. Neural Network

Metode ini telah digunakan beberapa peneliti sebagai salah satu metode untuk klasifikasi [6], [7], [12]. Metode ini akan meniru fungsi otak manusia yang didalamnya terdapat ribuan bahkan jutaan jaringan neuron. Neuron merupakan unit pengolahan kecil yang saling terhubung satu sama lainnya dan memiliki input dan keluaran [7].

Metode ini dapat memodelkan hubungan yang kompleks antara input dan output untuk mendapatkan pola dari datanya dan mampu memecahkan suatu masalah berdasarkan hasil informasi yang berasal dari eksternal maupun internal pada jaringan neuron tersebut [15].

e. Random Tree

Random Tree mempelajari tentang pohon keputusan dan menggunakan subset acak untuk setiap pemisahan dari atribut yang tersedia. Metode ini terdiri dari dua tahapan, pertama metode ini dapat membangun pohon keputusan menggunakan sebagian data sebagai data latih dan memilih fitur untuk memotong nilai yang memaksimalkan perolehan informasi dengan persyaratan pada setiap tahapnya [12]. Struktur yang dihasilkan atau disebut dengan kerangka pohon, akan berulang sampai pohon mencapai target yang telah ditentukan. Kedua, data latih digunakan untuk menentukan nilai atau klasifikasi yang sesuai dengan melakukan perhitungan statistik kelas pada node daun.

(5)

Merlinda Wibowo, Copyright © 2023, MIB, Page 157 Fitur dari data pelatihan digunakan untuk membangun struktur pohon dan data itu sendiri untuk memperbarui probabilitas kelas. Probabilitas ini digunakan untuk melacak jumlah sampel yang diklasifikasikan oleh setiap node.

Pada titik uji, setiap pohon menghasilkan probabilitas kelas. Probabilitas dari semua pohon dalam ensemble dirata- ratakan untuk menghasilkan estimasi probabilitas kelas secara keseluruhan [12]. Metode ini mudah untuk diterapkan dan juga dapat menghasilkan hasil prediksi yang maksimal karena representasi data dalam bentuk pohon akan memiliki keunggulan dibandingkan dengan pendekatan lainnya [12].

f. Random Forest

Random Forest digunakan dalam klasifikasi, regresi dan tugas lainnya berdasarkan metode ensamble dalam hal pembelajaran data. Kinerja pada metode ini diadaptasi dari metode decision tree yang setiap pohonnya dikempakan dari sampel bootstrap pada data latih. Nantinya subset dari atribut diambil secara acak dari atribut terbaiknya dengan dilakukan pemilihan secara dibagi menjadi dua bagian [6], [16]. Metode ini akan menciptakan contoh acak dari informasi dan susunan kunci ascribe untuk mengembangkan pohon pilihan. Proses klasifikasi akan dibuat untuk data yang tidak teramati dengan mengambil suara mayoritas dari masing-masing pohon. Hal ini dapat memberikan hasil kinerja yang maksimal dalam berbagai masalah fungsional terutama dalam pengumpulan informasi yang tidak bertanggung jawab pada overfitting. Oleh karena itu, penggabungan klasifikasi dari beberapa pohon masing-masing perlu dilatih secara terpisah. Selain itu, metode ini dapat mengatasi noise dan outlier dengan baik dan dapat dengan mudah diimplementasikan.

g. K Nearest Neighbor (KNN)

KNN merupakan metode yang paling sederhana untuk dipahami dan mudah untuk diimplementasikan sehingga beberapa penelitian telah menerapkan metode untuk proses klasifikasi [2], [7], [9], [15], [16] seperti pada penentuan produktifitas tanaman pertanian [10], [15]. Metode ini menerapkan pemilihan nilai yang sesuai untuk k, yaitu jumlah data yang terdekat dengan suatu obyek. Proses klasifikasi akan bergantung kepada nilai k tersebut.

Sehingga untuk memilih nilai k ini, metode ini harus dijalankan berulang kali untuk dapat menghasilkan nilai k yang berbeda-beda dan kemudian diambil nilai yang memiliki kinerja terbaik. Persamaan yang memenuhi metode KKN ini dapat dilihat pada rumus berikut ini:

(𝑥𝑖,𝑥𝑗) = √∑^𝑛_𝑟=1(𝑎_𝑟(𝑥_𝑖) − 𝑎_𝑟(𝑥_𝑗))² (5)

Dimana, hasil dari adalah pengurangan pada masing-masing atribut yang dikuadratkan dan akan dijumlahkan berdasarkan nilai yang kecil dengan menggunakan data uji.

2.5 Performance Evaluation

Tahap terakhir dari penelitian ini adalah performance evaluation [11], [17]. Dari dua metode klasifikasi yang digunakan, akan dihitung nilai akurasi, recall, precision, dan F1 score. Evaluasi dilakukan agar peneliti dapat menentukan metode terbaik untuk mendeteksi stress. Berikut ini adalah perhitungan untuk akurasi, recall, precision, dan F1 score.

Akurasi = 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝑇𝑟𝑢𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝑇𝑟𝑢𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒+𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 (6)

Recall = 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 (7)

Precision = 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒+𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 (8)

F1 score = 2 * 𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛∗𝑅𝑒𝑐𝑎𝑙𝑙

𝑃𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛+𝑅𝑒𝑐𝑎𝑙𝑙 (9)

Dimana 𝑇𝑁 (True Negative) adalah jumlah data negatif yang terdeteksi dengan benar, sedangkan, 𝐹𝑃 (False Positive) adalah data negative tetapi teridentifikasi sebagai data positif. 𝑇𝑃 (True Positive) merupakan data positif yang terdeteksi dengan benar dan 𝐹𝑁 (False Negative) adalah data positif tetapi diidentifikasi sebagai data negative, kebalikan dari 𝐹𝑃. Selain hasil perhitungan confusion matrix, visualisasi hasil klasifikasi dalam bentuk grafik perlu dilakukan untuk mempermudah pembacaan hasil dari klasifikasi [17], [18]. Setiap hasil kinerja nantinya dapat didokumentasikan dengan baik sebagai repesentasi untuk pemilihan metode yang tepat dan akurat.

3. HASIL DAN PEMBAHASAN

Perbandingan metode klasifikasi dilakukan untuk mendapatkan hasil yang tepat berdasarkan kualitas dan dan efisiensi hasil evaluasi dan validasi yang telah dilakukan. Langkah ini diperlukan untuk menentukan metode mana yang paling tepat untuk mendukung proses deteksi stress pada mahasiswa. Hal ini dapat dijadikan sebagai dasar penelitian yang dapat dilanjutkan ke dalam bidang kesehatan dan atau psikologi. Tentu saja deteksi stress sangat membantu mahasiswa dan juga dapat mempengaruhi kegiatan akademik di kampus. Metode klasifikasi yang berhasil dibandingkan dalam penelitian ini meliputi Naïve Bayes, Decision Tree, SVM, Neural Network, Random Tree, Random Forest, dan KNN. Berdasarkan hasil pengujian dengan mengunakan bahasa pemrograman python

(6)

Merlinda Wibowo, Copyright © 2023, MIB, Page 158 dengan aplikasi jupyter notebook, didapat tabel perbandingan perfoma dari masing-masing metode. Perbandingan kinerja ini dibagi menjadi dua bentuk transformasi data yaitu dengan diskritisasi dan normalisasi. Perbandingan kinerja ini masing-masing menghasilkan nilai Akurasi, Recall, Precision, dan F1-Score. Perbandingan dengan penggunaan split 80: 20.

Tabel 1. Tabel Hasil Perbandingan

Metode Akurasi Precision Recall F1-Score

(%) (%) (%) (%)

Naïve Bayes 50 56 50 34

Decision Tree 100 100 100 100

MLP 46 46 45 45

SVM 51 56 51 37

Random Tree 100 100 100 100

Random Forest 83 85 83 83

KNN 59 59 59 59

Dari tabel 1 dapat diketahui bahwa metode klasifikasi Decision Tree dan Random Tree memiliki akurasi yang sangat tinggi, yaitu 100%. Hal ini dapat dilihat dari nilai akurasi, precision, recall, dan F1-score yang semuanya sama dengan 100% pada kedua metode tersebut.

Pra pemrosesan data merupakan tahap yang dilakukan sebelum data dimasukkan ke dalam model pembelajaran mesin. Pra pemrosesan data bertujuan untuk mengolah data agar sesuai dengan format yang dibutuhkan oleh model, serta untuk menghilangkan noise (data yang tidak bermanfaat) yang dapat menurunkan akurasi model. Dari tabel tersebut, dapat diketahui bahwa pra pemrosesan data memberikan pengaruh yang signifikan terhadap hasil akurasi, precision, recall, dan F1-Score pada kedua metode tersebut.

Berdasarkan hasil evaluasi, metode Decision Tree dan Random Tree dianggap sebagai metode klasifikasi terbaik karena mampu menghasilkan akurasi yang tinggi, yaitu 100%. Artinya, kedua metode tersebut mampu menghasilkan prediksi yang benar seluruhnya. Namun perlu diingat bahwa hasil evaluasi tersebut hanya berlaku untuk dataset yang digunakan dalam penelitian tersebut. Hasil evaluasi pada dataset yang berbeda mungkin akan berbeda pula. Oleh karena itu, perlu dilakukan evaluasi terhadap beberapa metode pada dataset yang akan digunakan untuk memastikan bahwa metode tersebut memiliki performa yang sesuai dengan kebutuhan.

Visualisasi hasil klasifikasi pada tingkat akurasi kinerja dari metode yang digunakan dapat dilihat pada gambar 4.

Gambar 4. Perbandingan Hasil Akurasi Klasifikasi.

4. KESIMPULAN

Penelitian ini berhasil melakukan perbandingan hasil kinerja dari metode-metode untuk klasifikasi data. Metode- metode yang digunakan pada penelitian ini antara lain Naïve Bayes, Decision Tree, SVM, Neural Network, Random Tree, Random Forest, dan KNN. Metode-metode ini melakukan klasifikasi pada data mahasiswa di universitas untuk mendeteksi tingkat stres berdasarkan atribut-atribut yang telah dipilih. Hasil rekomendasi ini dapat membantu dalam peningkatan kualitas individu mahasiswa dalam penyesuai sistem pembelajaran saat ini.

Terlebih saat ini, setelah masa pandemi dan perubahan sistem kegiatan akademik yang masih perpaduan antara pembelajaran aring dan luring. Berdasarkan hasil pengujian yang dilakukan, diketahui bahwa Decision Tree dan Random Tree merupakan metode terbaik yang dapat diimplementasikan sebagai metode untuk mendeteksi stress pada mahasiswa. Hal ini ditunjukkan dengan nilai akurasi, precission, recall, dan F1-Score yang lebih tinggi dari metode lainnya dengan hasil mencapai hingga 100%. Metode yang terpilih dapat digunakan sebagai metode untuk membantu mendeteksi stress yang dapat langsung diimplementasikan kepada masyarakat dalam bentuk aplikasi ataupun sistem.

0 50 100 150

0 2 4 6 8

Hasil Akurasi Klasifikasi

Akurasi (%) Precision (%) Recall (%) F1-Score (%)

(7)

UCAPAN TERIMAKASIH

Terima kasih disampaikan kepada pihak-pihak yang telah mendukung terlaksananya penelitian ini. Kepada LLDIKTI yang memberikan pendanaan berupa hibah Penelitian Dosen Pemula (PDP) tahun 2022 serta Institut Teknologi Telkom Purwokerto yang senantiasa memberikan dukungannya baik secara langsung maupun tidak langsung. Kepada seluruh pihak yang membantu yang tidak dapat kami sebutkan satu persatu.

REFERENCES

[1] D. B. O’Connor, J. F. Thayer, and K. Vedhara, “Stress and Health: A Review of Psychobiological Processes,” Annu.

Rev. Psychol., vol. 72, pp. 663–688, 2021.

[2] V. A. Canady, “APA survey: Majority of Americans reporting prolonged stress,” Ment. Heal. Wkly., vol. 31, no. 6, pp.

6–6, 2021.

[3] B. Lazarevic and D. Bentz, “Student Perception of Stress in Online and Face-to-Face Learning: The Exploration of Stress Determinants,” Am. J. Distance Educ., vol. 35, no. 1, pp. 2–15, 2021.

[4] P. Harjule, A. Rahman, and B. Agarwal, “A cross-sectional study of anxiety, stress, perception and mental health towards online learning of school children in India during COVID-19,” J. Interdiscip. Math., vol. 24, no. 2, pp. 411–424, 2021.

[5] P. Bobade and M. Vani, “Stress Detection with Machine Learning and Deep Learning using Multimodal Physiological Data,” Proc. 2nd Int. Conf. Inven. Res. Comput. Appl. ICIRCA 2020, pp. 51–57, 2020.

[6] V. Montesinos, F. Dell’Agnola, A. Arza, A. Aminifar, and D. Atienza, “Multi-Modal Acute Stress Recognition Using Off-the-Shelf Wearable Devices,” Proc. Annu. Int. Conf. IEEE Eng. Med. Biol. Soc. EMBS, pp. 2196–2201, 2019.

[7] M. Wibowo and R. Ramadhani, “Perbandingan Metode Klasifikasi Data Mining Untuk Rekomendasi Tanaman Pangan,”

J. Media Inform. Budidarma, vol. 5, no. 3, p. 913, 2021.

[8] M. Wibowo and S. Sulaiman, “Machine Learning in Data Lake for Combining Data Silos,” pp. 294–306, 2017.

[9] F. D. Adhinata, D. P. Rakhmadani, M. Wibowo, and A. Jayadi, “A Deep Learning Using DenseNet201 to Detect Masked or Non-masked Face,” JUITA J. Inform., vol. 9, no. 1, p. 115, 2021.

[10] T. Setiadi, F. Noviyanto, H. Hardianto, A. Tarmuji, A. Fadlil, and M. Wibowo, “Implementation Of Naïve Bayes Method In Food Crops Planting Recommendation,” Int. J. Sci. Technol. Res., vol. 9, no. 02, pp. 4750–4755, 2020.

[11] M. Ustuner, M. T. Esetlili, F. B. Sanli, S. Abdikan, and Y. Kurucu, “Comparison of crop classification methods for the sustainable agriculture management,” J. Environ. Prot. Ecol., vol. 17, no. 2, pp. 648–655, 2016.

[12] M. Wibowo, S. Sulaiman, and S. M. Shamsuddin, “Comparison of Prediction Methods for Air Pollution Data in Malaysia and Singapore,” Int. J. Innov. Comput., vol. 8, no. 3, pp. 65–71, 2018.

[13] L. Jiang, C. Li, S. Wang, and L. Zhang, “Deep feature weighting for naive Bayes and its application to text classification,”

Eng. Appl. Artif. Intell., vol. 52, pp. 26–39, 2016.

[14] H. Zhang, Z.-X. Cao, M. Li, Y.-Z. Li, and C. Peng, “Novel naïve Bayes classification models for predicting the carcinogenicity of chemicals,” Food Chem. Toxicol., vol. 97, pp. 141–149, 2016.

[15] S. T. Rizaldi and M. Mustakim, “Perbandingan Teknik Pembagian Data untuk Klasifikasi Sarana Akses Air pada Algoritma K- Nearest Neighbor dan Naïve Bayes Classifier,” Semin. Nas. Teknol. Informasi, Komun. dan Ind. 12, pp.

130–137, 2020.

[16] Z. Zainudin, S. Hasan, S. M. Shamsuddin, and S. Argawal, “Stress Detection using Machine Learning and Deep Learning,” J. Phys. Conf. Ser., vol. 1997, no. 1, 2021.

[17] M. Wibowo, F. Noviyanto, S. Sulaiman, and S. M. Shamsuddin, “Machine Learning Technique For Enhancing Classification Performance In Data Summarization Using Rough Set And Genetic Algorithm,” Int. J. Sci. Technol. Res., vol. 8, no. 10, pp. 1108–1119, 2019.

[18] M. Wibowo, S. Sulaiman, S. Mariyam, and H. Hashim, “Mobile Analytics Database Summarization Using Rough Set,”

Int. J. Innov. Comput., vol. 7, no. 2, pp. 6–12, 2017.