Optimalisasi Klasifikasi Umpan Balik Mahasiswa Terhadap Layanan Kampus dengan Sinergi Random Forest dan Smote
Karfindo1*, Rifa Turaina2, Rusli Saputra3
1-3Sistem Informasi, Universitas Metamedia
1-3Jl. Khatib Sulaiman Dalam, No.1, Padang
e-mail:1[email protected], 2[email protected],3[email protected]
Abstrak - Di era digital, pendidikan tinggi dihadapkan pada tantangan untuk merespons secara efektif terhadap umpan balik mahasiswa, yang merupakan kunci untuk meningkatkan kualitas layanan kampus.
Penelitian ini dirancang untuk mengoptimalkan proses klasifikasi umpan balik tersebut dengan menggunakan sinergi antara algoritma Random Forest dan teknik Synthetic Minority Over-sampling Technique (SMOTE) dalam analisis sentimen. Data dikumpulkan dari berbagai saran mahasiswa, diikuti dengan tahapan pra-pemrosesan yang meliputi pembersihan, tokenisasi, dan penghapusan stopwords.
Setelah pelabelan sentimen menggunakan lexicon yang terverifikasi, SMOTE diterapkan untuk mengatasi ketidakseimbangan kelas dalam dataset. Hasil menunjukkan bahwa sebelum penerapan SMOTE, terdapat bias terhadap kelas mayoritas, namun setelah aplikasi SMOTE, terjadi peningkatan yang signifikan dalam presisi dan recall terutama pada kelas minoritas, meningkatkan akurasi klasifikasi secara keseluruhan. Hasil ini menggarisbawahi pentingnya penerapan teknik penyeimbangan data dalam analisis sentimen, menunjukkan bahwa pendekatan ini dapat memberikan wawasan yang lebih seimbang dan mendalam, serta mendukung institusi dalam membuat keputusan yang tepat dan responsif terhadap kebutuhan mahasiswa..
Kata kunci: Analisis Sentimen, Klasifikasi Teks, Random Forest, SMOTE.
Abstract - In the digital age, higher education faces the challenge of effectively responding to student feedback, which is key to enhancing campus service quality. This study is designed to optimize the feedback classification process by leveraging the synergy between the Random Forest algorithm and the Synthetic Minority Over-sampling Technique (SMOTE) in sentiment analysis. Data was collected from various student suggestions, followed by preprocessing stages that included cleaning, tokenization, and the removal of stopwords. After sentiment labeling using a verified lexicon, SMOTE was applied to address class imbalances in the dataset. The results indicate that before the application of SMOTE, there was a bias toward the majority class, but after the application of SMOTE, there was a significant improvement in precision and recall, especially for the minority classes, enhancing the overall classification accuracy.
These findings underscore the importance of applying data balancing techniques in sentiment analysis, demonstrating that this approach can provide more balanced and in-depth insights, as well as support institutions in making accurate and responsive decisions to student needs.
Keywords: Sentiment Analysis, Text Classification, Random Forest, SMOTE.
1. Pendahuluan
Pendidikan tinggi di era digital menuntut institusi pendidikan untuk terus meningkatkan kualitas layanannnya. Mahasiswa sebagai pemangku kepentingna utama memiliki peran krusial dalam memberikan umpan balik terkait layanan kampus [1]. Untuk meningkatkan kualitas dan responsivitas layanan tersebut, analisis saran mahasiswa menjadi aspek penting yang perlu diperhatikan secara mendalam.
Dalam upaya memahami dan meningkatkan layanan kampus, sangat penting untuk melibatkan mahasiswa sebagai mitra aktif. Umpan balik yang mereka berikan bukan hanya sekedar refleksi pengalaman pribadi, tetapi juga cerminan dari dinamika yang ada di lingkungan kampus. Dengan mengambil pendekatan yang berpusat pada mahasiswa, kita dapat membuka pintu menuju perubahan yang berkelanjutan dan merespon terhadap perkembangan kebutuhan pendidikan tinggi [2].
Keberhasilan sebuah institusi pendidikan tidak hanya diukur dari segi akademis, tetapi juga sejauh mana mereka dapat menciptakan lingkungan yang mendukung perkembangan holistik mahasiswa. Oleh karena itu, analisis saran mahasiswa bukan hanya sekadar alat untuk mengidentifikasi masalah atau kekurangan layanan, tetapi juga sarana untuk mengeksplorasi potensi perbaikan dan inovasi yang dapat memperkaya pengalaman belajar [3].
Dalam beberapa tahun terakhir, kemajuan teknologi, khususnya dalam bidang machine learning, memberikan peluang baru dalam mengoptimalkan analisis terhadap umpan balik mahasiswa. Machine
Submitted Date : 30 Desember 2023 Accepted Date : 31 Desember 2023
learning mampu memberikan wawasan yang lebih mendalam dari saran-saran mahasiswa, membantu institusi pendidikan untuk mengambil keputusan yang lebih baik dalam meningkatkan layanan [4].
Pendekatan machine learning menawarkan keunggulan dalam menganalisis dan mengklasifikan saran- saran mahasiswa secara otomatis. Penerapan berbagai algoritma, termasuk Random Forest, dapat meningkatkan akurasi dan ketepatan analisis saran yang diberikan oleh mahasiswa. Hal ini membuka pintu untuk pemanfaatan data besar dalam meningkatkan kualitas layanan kampus berdasarkan pemahaman yang lebih mendalam terhadap preferensi dan kebutuhan mahasiswa.
Tantangan utama yang dihadapi dalam analisis saran mahasiswa adalah ketidakseimbangan data antara saran yang bersifat positif dan negatif terkait layanan kampus. Fenomena ini menciptakan ketidakproporsionalan dalam jumlah umpan balik yang mendukung atau mengkritik layanan tersebut.
Sebagai respons terhadap tantangan ini, penelitian ini mengadopsi metode Synthetic Minority Over Sampling Technique (SMOTE) sebagai bagian integral dari analisis data penelitian ini [5]. SMOTE menjadi sebuah alat yang sangat penting untuk mengatasi ketidakseimbangan data ini. Dalam konteks ini, penelitian ini bertujuan untuk mengoptimalkan analisis saran mahasiswa terhadap layanan kampus dengan memanfaatkan pendekatan machine learning, khususnya algoritma Random Forest. Dengan menggunakan teknologi ini, diharapkan dapat diperoleh pemahaman yang lebih baik terkait saran mahasiswa, yang pada gilirannya akan membantu meningkatkan responsivitas dan kepuasan mahasiswa terhadap layanan kampus.
Dalam konteks ini, penelitian ini bertujuan untuk mengoptimalkan analisis saran mahasiswa terhadap layanan kampus dengan memanfaatkan pendekatan machine learning. Dengan menggunakan teknologi ini, diharapkan dapat diperoleh pehaman yang lebih baik terkait saran mahasiswa, yang pada gilirannya akan membantu meningkatkan responsivitas dan kepuasan mahasiswa terhadap layanan kampus.
2. Tinjauan Pustaka 2.1. Teori Klasifikasi Teks
Klasifikasi teks, dalam konteks natural languange processing (NLP), merupakan proses fundamental yang memungkinkan komputer untuk menginterpretasi, memahami, dan mengkategorikan teks manusia. Tujuan utama dari klasifikasi teks adalah untuk mengorganisir data teks ke dalam kategori yang telah ditentukan, sehingga memudahkan analisis lebih lanjut dan pengambilan keputusan. Proses ini sangat penting dalam era informasi digital saat ini, di mana data teks yang dihasilkan oleh manusia, seperti dokumen, email, dan posting media sosial, tumbuh secara eksponensial [5].
Dalam praktiknya, klasifikasi teks digunakan untuk berbagai aplikasi, mulai dari penyaringan email spam, analisis sentimen, hingga klasifikasi topik berita. Secara esensial, proses ini mengharuskan algoritma untuk menilai teks yang diberikan dan menempatkannya dalam kategori yang relevan berdasarkan kontennya.
Misalnya, dalam analisis sentimen, teks dari ulasan produk dapat dikategorikan sebagai positif, negatif, atau netral. Proses klasifikasi ini tidak hanya bergantung pada kata-kata yang digunakan dalam teks tetapi juga konteks di mana kata-kata tersebut ditempatkan. Ini berarti bahwa pemahaman yang lebih dalam tentang nuansa bahasa dan struktur teks diperlukan untuk klasifikasi yang akurat.
Pengembangan dan peningkatan metode klasifikasi teks terus berlangsung, didorong oleh kemajuan teknologi dan tuntutan yang terus berkembang untuk pemahaman yang lebih akurat dan mendalam tentang data teks. Hal ini menjadikan klasifikasi teks sebagai bidang yang sangat penting dan relevan dalam penelitian NLP dan ilmu data [6].
2.2. Random Forest Classifier
Random Forest Classifier merupakan salah satu algoritma machine learning yang paling populer dan efektif, terutama dalam tugas-tugas klasifikasi. Sebagai bagian dari keluarga model ensemble learning, Random Forest mengintegrasikan output dari berbagai decision trees untuk menghasilkan prediksi yang lebih akurat dan stabil daripada yang bisa dicapai oleh satu pohon keputusan saja [7].
Salah satu kekuatan utama Random Forest adalah kemampuannya untuk mengelola dataset dengan jumlah fitur yang sangat besar dan beragam, membuatnya sangat cocok untuk aplikasi dalam analisis data teks, di mana fitur biasanya melimpah dan kompleks. Selain itu, Random Forest dapat menangani baik data kategorikal maupun numerik dengan baik, serta memiliki kemampuan untuk menangani masalah data yang hilang.
Random Forest juga memberikan estimasi tentang fitur mana yang paling penting dalam proses klasifikasi. Ini dilakukan melalui penghitungan 'feature importance', yang memberikan wawasan tentang fitur apa yang paling berkontribusi terhadap akurasi model. Fitur ini sangat bermanfaat dalam analisis eksploratif data dan dalam membuat keputusan tentang fitur mana yang harus dipertahankan atau dibuang dalam proses pemodelan.
Meskipun Random Forest banyak dipuji karena akurasinya, ada beberapa keterbatasan. Salah satunya adalah model ini bisa menjadi cukup kompleks dan memakan waktu dalam pelatihan, terutama saat jumlah
pohon dalam hutan sangat besar. Selain itu, model ini bisa menjadi kurang interpretable dibandingkan dengan model yang lebih sederhana seperti decision tree tunggal, karena kompleksitas yang ditambahkan dari banyak pohon [8].
Dalam konteks NLP dan klasifikasi teks, Random Forest seringkali digunakan sebagai benchmark karena keandalan dan keakuratannya. Ini menjadi pilihan yang populer, terutama dalam skenario di mana interpretasi model bukanlah faktor kritis, dan tujuan utamanya adalah untuk mencapai akurasi prediksi yang tinggi.
2.3. Teknik SMOTE (Synthetic Minority Over-sampling Technique)
Teknik SMOTE, singkatan dari Synthetic Minority Over-sampling Technique, merupakan pendekatan yang inovatif dalam mengatasi masalah ketidakseimbangan kelas dalam data set pelatihan untuk tugas-tugas pembelajaran mesin. SMOTE telah menjadi salah satu teknik yang paling umum digunakan untuk meningkatkan kinerja model klasifikasi pada data yang tidak seimbang.
Ketidakseimbangan kelas adalah masalah umum dalam pembelajaran mesin, terutama dalam konteks klasifikasi. Ketika salah satu kelas jauh lebih banyak daripada kelas lainnya, model cenderung bias terhadap kelas mayoritas dan mengabaikan kelas minoritas, yang menghasilkan performa yang buruk pada kelas minoritas tersebut. SMOTE menangani masalah ini dengan cara yang unik. Daripada hanya membuat duplikat dari sampel kelas minoritas (over-sampling sederhana), SMOTE menghasilkan sampel sintetis yang baru [9].
Proses SMOTE bekerja dengan pemilihan sampel acak untuk setiap sampel dalam kelas minoritas, SMOTE memilih sampel tetangga terdekat dari kelas yang sama. SMOTE membuat sampel sintetis yang baru dengan cara melakukan interpolasi antara sampel minoritas yang dipilih dan tetanggannya. Ini dilakukan dengan menggabungkan fitur dari kedua sampel ini dengan cara yang bergantung pada jarak acak. Sampel- sampel sintetis yang dihasilkan kemudian ditambahkan ke set data pelatihan. Ini meningkatkan representasi kelas minoritas dalam set data dan membantu mengurangi bias model terhadap kelas mayoritas [10].
Kelebihan utama dari SMOTE adalah kemampuannya untuk menciptakan sampel yang lebih realistis dibandingkan dengan sekadar menduplikasi sampel yang ada. Hal ini memungkinkan model pembelajaran mesin untuk mempelajari variasi yang lebih besar dalam kelas minoritas, sehingga meningkatkan kemampuannya untuk menggeneralisasi dan memprediksi kelas minoritas dengan lebih akurat. Teknik ini sangat berguna dalam banyak kasus penggunaan nyata, seperti deteksi penipuan, diagnosa medis, dan tentu saja, dalam klasifikasi teks ketika distribusi label sangat tidak seimbang.
Namun, SMOTE juga memiliki beberapa keterbatasan. Misalnya, dengan menciptakan sampel sintetis, ada kemungkinan bahwa sampel tersebut dapat memiliki karakteristik yang tidak sepenuhnya mewakili kelas minoritas yang sebenarnya. Selain itu, SMOTE dapat meningkatkan risiko overfitting pada kelas minoritas karena menambahkan informasi tambahan yang dihasilkan secara sintetis ke model.
Dalam praktiknya, penggunaan SMOTE sering kali dikombinasikan dengan teknik lain, seperti under- sampling kelas mayoritas atau penggunaan algoritma pembelajaran mesin yang lebih canggih, untuk mencapai hasil yang optimal dalam klasifikasi pada data tidak seimbang.
2.4. Lexicon Based
Pelabelan dengan lexicon adalah metodologi yang berperan penting dalam analisis teks, terutama dalam penentuan sentimen. Lexicon yang digunakan dalam analisis semacam ini biasanya merupakan daftar yang terdiri dari kata-kata atau frasa bersama dengan asosiasi sentimen yang telah ditetapkan, seperti positif, negatif, atau netral. Metode ini memanfaatkan pemetaan langsung antara teks yang dianalisis dan entri dalam lexicon untuk menentukan sentimen keseluruhan dari sebuah teks [11].
Lexicon sentimen biasanya dikembangkan melalui proses yang teliti, sering kali melibatkan analisis linguistik dan psikolinguistik untuk memahami bagaimana berbagai kata dan frasa dihubungkan dengan emosi atau opini. Dalam beberapa kasus, lexicon juga dapat diperkaya dengan pelabelan manual oleh ahli bahasa atau melalui crowdsourcing, di mana banyak pengguna memberikan penilaian mereka terhadap sentimen kata atau frasa. Ini memastikan bahwa lexicon mencakup berbagai ekspresi yang digunakan dalam bahasa sehari-hari, termasuk slang, istilah teknis, atau bahkan bahasa gaul yang terus berkembang di media sosial.
Dalam analisis sentimen, lexicon berperan sebagai alat yang sangat berguna karena memungkinkan pengolahan data teks dalam jumlah besar dengan cepat dan efisien. Ini sangat penting dalam era big data, di mana volume umpan balik atau ulasan online dapat sangat besar dan tidak praktis untuk dianalisis secara manual. Namun, pelabelan dengan lexicon memiliki keterbatasan, termasuk kesulitan dalam menangkap nuansa kontekstual seperti sarkasme, ironi, dan makna konotatif yang lebih dalam, yang sering kali memerlukan pemahaman yang lebih canggih mengenai konteks dan nuansa bahasa [12].
Salah satu cara untuk mengatasi keterbatasan ini adalah dengan menggabungkan lexicon dengan metode NLP yang lebih kompleks, seperti pemrosesan bahasa alami berbasis aturan atau model pembelajaran mesin.
Model-model ini dapat dilatih untuk mengenali pola yang lebih halus dalam teks, seperti struktur kalimat atau
pola ko-kejadian kata, yang dapat memberikan petunjuk tentang sentimen yang sebenarnya.
Dalam penelitian ini, pelabelan dengan lexicon digunakan untuk memahami sentimen umpan balik mahasiswa terhadap layanan kampus. Lexicon yang dipilih dikalibrasi untuk memastikan relevansi dengan konteks pendidikan tinggi dan keakuratan dalam mengklasifikasikan feedback. Ini memungkinkan peneliti untuk mengkonversi teks umpan balik yang tidak terstruktur menjadi data yang terstruktur, yang kemudian dapat dianalisis untuk mendapatkan wawasan tentang kepuasan mahasiswa dan area yang memerlukan peningkatan.
Lexicon sentimen telah menjadi alat yang berharga dalam memfasilitasi pemahaman yang lebih mendalam terhadap dinamika emosional yang terkandung dalam teks. Sebagai hasilnya, pelabelan dengan lexicon memungkinkan institusi pendidikan tinggi untuk menggali lebih dalam ke dalam feedback mahasiswa dan menerapkan perubahan yang diperlukan untuk meningkatkan layanan mereka, berdasarkan analisis yang berbasis data dan sistematis.
3. Metode Penelitian
Penelitian ini bertujuan untuk mengoptimalkan proses klasifikasi umpan balik mahasiswa terhadap layanan kampus. Dengan memanfaatkan pendekatan analisis teks yang canggih, studi ini berupaya mengatasi tantangan ketidakseimbangan data yang sering terjadi dalam pengumpulan feedback.
Gambar 1. Metodologi Penelitian
Untuk mencapai tujuan tersebut, penelitian ini merancang metodologi penelitian yang terstruktur sebagai berikut:
a. Pengumpulan Data
Fase awal penelitian ini melibatkan pengumpulan data teks berupa umpan balik mahasiswa terhadap berbagai aspek layanan kampus. Data ini dihimpun dari sumber-sumber yang telah ditentukan, termasuk survei online, forum diskusi, dan sistem evaluasi internal kampus, yang menjamin autentisitas dan relevansi informasi yang diperoleh.Pengumpulan Data
b. Pra-pemrosesan teks
Setelah pengumpulan, data teks menjalani proses pra-pemrosesan komprehensif untuk mempersiapkannya untuk analisis lebih lanjut. Tahap ini mencakup serangkaian langkah kritis yang dijelaskan di bawah ini:
1. Cleaning: Proses ini menghilangkan segala bentuk gangguan dari data, seperti markup HTML, alamat URL, dan karakter non-alfabetis, yang tidak memberikan nilai tambah dalam analisis teks.
2. Missing Value: Kami mengidentifikasi dan mengatasi masalah nilai yang hilang, yang dapat mempengaruhi integritas analisis, dengan menggunakan teknik imputasi yang sesuai atau penghapusan entri.
3. Casefolding: Semua teks diubah menjadi huruf kecil untuk menciptakan konsistensi dan mengeliminasi duplikasi yang tidak perlu.
4. Stemming: Kata-kata dalam teks direduksi ke bentuk dasar mereka, memfasilitasi pengelompokan kata- kata yang serupa dan memperkuat analisis.
5. Tokenizing: Teks dipecah menjadi unit dasar, seperti kata atau frasa, yang memungkinkan pemrosesan
lebih lanjut.
6. Stopward: Kata-kata umum yang tidak membawa bobot penting dalam teks, dikenal sebagai stopwords, dieliminasi untuk meningkatkan efisiensi analisis.
c. Pelabelan dengan Lexicon
Setelah pra-pemrosesan, data teks dilabeli menggunakan lexicon yang telah dikembangkan khusus untuk menilai sentimen dalam feedback mahasiswa. Lexicon ini mengkategorikan teks berdasarkan tingkat positif, negatif, atau netralnya konten.
d. Penerapan SMOTE
Mengingat pentingnya representasi yang seimbang dari semua kategori dalam analisis klasifikasi, kami menggunakan teknik Synthetic Minority Over-sampling Technique (SMOTE). Teknik ini memungkinkan pembuatan sampel sintetis untuk kelas minoritas, yang mengurangi bias dan meningkatkan kinerja model klasifikasi yang akan dikembangkan.
e. Klasifikasi menggunakan random forest
Dengan data yang telah diseimbangkan, kami mengadopsi model Random Forest untuk klasifikasi feedback. Model ini terdiri dari kumpulan decision trees yang bekerja secara kolektif untuk meningkatkan akurasi prediksi. Keputusan klasifikasi diambil berdasarkan hasil agregasi dari semua pohon keputusan yang membentuk 'hutan'.
f. Evaluasi
Evaluasi model merupakan tahap penutup dari penelitian ini. Kami mengukur efektivitas model Random Forest menggunakan berbagai metrik evaluasi seperti akurasi, precision, recall, dan skor F1. Hasil evaluasi ini memberikan wawasan terhadap performa model dan membuka peluang untuk peningkatan lebih lanjut.
4. Hasil dan Pembahasan
Dalam era digital yang terus berkembang, institusi pendidikan tinggi dihadapkan pada tantangan untuk memahami dan mengakomodasi kebutuhan mahasiswa dengan lebih efektif. Sejalan dengan ini, umpan balik mahasiswa tentang layanan kampus menjadi sebuah komoditas berharga yang harus dikelola dengan cermat untuk menginformasikan perbaikan layanan dan kebijakan. Penelitian ini bertujuan untuk meningkatkan proses klasifikasi umpan balik mahasiswa melalui penggunaan algoritma Random Forest dan teknik SMOTE dalam analisis teks. Dengan menggabungkan kekuatan kedua metode ini, kami mengatasi salah satu tantangan utama dalam analisis data teks: ketidakseimbangan kelas, yang sering kali mengarah pada bias model dan karenanya, interpretasi yang tidak akurat terhadap sentimen mahasiswa. Penelitian ini tidak hanya berupaya untuk mengoptimalkan klasifikasi teks tetapi juga untuk memperkaya pemahaman institusio nal tentang persepsi dan kepuasan mahasiswa. Selanjutnya, kami akan memaparkan data yang mendasari penelitian ini dan hasil analisis yang dilakukan, yang menegaskan potensi dari pendekatan kami dalam mengubah cara institusi pendidikan tinggi merespons suara mahasiswa.
Dalam upaya untuk mengextraksi makna yang signifikan dari saran mahasiswa, langkah awal yang krusial adalah pra-pemrosesan teks. Proses ini merupakan fondasi penting dalam analisis data teks, bertujuan untuk menyaring, menormalkan, dan mengkonversi data mentah menjadi format yang lebih terstruktur dan mudah dianalisis. Pra-pemrosesan ini mencakup berbagai teknik seperti pembersihan data untuk menghilangkan noise dan informasi yang tidak relevan, seperti tag HTML, tanda baca yang tidak perlu, dan angka yang tidak memberikan nilai analitis. Selain itu, aktivitas seperti tokenisasi memecah teks panjang menjadi kata-kata atau frasa yang lebih kecil, yang memudahkan identifikasi dan klasifikasi pola teks. Proses stemming digunakan untuk mereduksi kata-kata ke bentuk dasar mereka, memungkinkan sistem untuk mengakui kata-kata dengan akar yang sama sebagai entitas yang identik, meskipun kata tersebut mungkin muncul dalam berbagai bentuk. Penghapusan stopwords — kata-kata umum yang tidak mempengaruhi konteks umum teks tetapi dapat mengganggu proses analisis — juga sangat penting. Setelah pra-pemrosesan teks yang teliti, data menjadi siap untuk dianalisis lebih lanjut, memberikan landasan yang kuat untuk tahapan klasifikasi dan interpretasi yang akan mengikuti.
Setelah tahap pra-pemrosesan teks yang mendalam, dimana teks telah dibersihkan, dinormalkan, dan disiapkan, langkah berikutnya dalam analisis feedback mahasiswa adalah pelabelan otomatis. Proses ini memanfaatkan lexicon — sebuah kamus yang kaya yang telah dikembangkan dan disesuaikan untuk mengenali berbagai ekspresi dan istilah yang secara spesifik digunakan dalam konteks layanan kampus.
Lexicon ini dirancang untuk secara akurat mengidentifikasi nuansa dalam sentimen yang diungkapkan oleh mahasiswa, apakah itu positif, negatif, atau netral. Setiap entri dalam data teks yang telah diproses sebelumnya akan dijajarkan dengan entri dalam lexicon untuk menentukan polaritasnya. Dengan menggunakan teknik ini, setiap potongan feedback dapat dianotasi dengan label yang relevan secara otomatis, yang mengurangi beban kerja manual sekaligus meningkatkan konsistensi dan objektivitas dalam analisis sentimen.
Pelabelan otomatis ini menjadi penting karena memungkinkan pengolah data untuk menangani volume feedback yang besar dengan efisien, yang sering kali tidak mungkin dikelola secara manual. Dengan adanya pelabelan yang akurat dan sistematis, analis dapat melanjutkan ke tahap analisis dan klasifikasi data yang lebih lanjut, termasuk penggunaan algoritma machine learning seperti Random Forest untuk menginterpretasi dan mendapatkan insight dari data. Selanjutnya, teknik SMOTE dapat diterapkan pada data yang telah dilabeli ini untuk mengatasi permasalahan ketidakseimbangan kelas, memastikan bahwa setiap kategori feedback terwakili dengan baik dalam set pelatihan model klasifikasi seperti terlihat pada gambar 2.
Gambar 2. Hasil Pelabelan Dengan Lexicon
Histogram yang dihasilkan dari pelabelan lexicon menunjukkan gambaran yang jelas tentang persepsi mahasiswa terhadap layanan kampus, dengan sejumlah besar umpan balik diberikan label sebagai positif.
Sementara ini pada pandangan pertama mungkin menandakan tingkat kepuasan yang tinggi di antara mahasiswa, dominasi satu kategori sentimen dapat mengindikasikan potensi bias dalam pengumpulan data atau dalam metode pelabelan itu sendiri. Menariknya, jumlah feedback yang diberi label negatif menempati posisi tengah, sedangkan feedback netral adalah yang paling sedikit. Ketidakseimbangan ini menjadi perhatian utama dalam penelitian ini karena dapat menyebabkan bias prediktif dalam model klasifikasi yang dikembangkan.
Pentingnya distribusi data yang seimbang tidak dapat diremehkan dalam pembelajaran mesin, terutama dalam klasifikasi teks, karena model cenderung menghasilkan prediksi yang bias ke arah kelas yang lebih sering muncul. Ini mengarah pada perlunya penyeimbangan kembali dataset, salah satunya dengan menggunakan teknik SMOTE seperti terlihat pada gambar 3, yang akan mensintesis entri baru untuk kelas yang kurang terwakili. Dengan cara ini, model klasifikasi yang akan dikembangkan dapat dilatih dalam kondisi yang lebih seimbang, memperbesar kemungkinan output yang lebih objektif dan merata.
Gambar 3. Hasil Penyeimbang Menggunakan SMOTE
Setelah menerapkan teknik SMOTE pada distribusi sentimen umpan balik mahasiswa, kita dapat mengharapkan hasil yang menunjukkan distribusi kelas yang lebih seimbang. SMOTE, atau Synthetic Minority Over-sampling Technique, bekerja dengan menciptakan sampel data sintetis untuk kelas minoritas berdasarkan fitur sampel yang ada. Dengan melakukan ini, metode ini mengurangi bias terhadap kelas mayoritas yang mungkin ada dalam set data asli, sehingga meningkatkan kemungkinan model klasifikasi
untuk memprediksi kelas minoritas dengan lebih akurat.
Penerapan SMOTE biasanya menghasilkan peningkatan jumlah sampel dalam kategori sentimen yang lebih sedikit representasinya, sehingga jumlah sampel untuk kategori netral dan negatif akan meningkat hingga mendekati jumlah sampel positif. Ini akan membawa distribusi ke titik yang lebih seragam di antara ketiga kategori sentimen tersebut. Dengan demikian, histogram pasca-SMOTE akan menunjukkan kolom- kolom yang lebih seimbang, menunjukkan bahwa setiap kategori sentimen sekarang memiliki representasi yang proporsional dalam data yang dianalisis.
Dengan set data yang seimbang ini, model klasifikasi seperti Random Forest memiliki peluang lebih baik untuk menggeneralisasi dari data pelatihan ke data yang belum pernah dilihat, meningkatkan keandalan hasil klasifikasi secara keseluruhan. Hasil seimbang ini juga penting dalam konteks edukasi karena memungkinkan institusi pendidikan untuk menggali wawasan yang merata dari semua spektrum umpan balik mahasiswa, memastikan bahwa setiap suara didengar dan dipertimbangkan dalam upaya peningkatan layanan kampus.
Penelitian ini mengevaluasi efektivitas model Random Forest dalam klasifikasi sentimen feedback mahasiswa terhadap layanan kampus, baik sebelum maupun setelah penerapan teknik SMOTE seperti yang terlihat pada tabel 1.
Tabel 1. Perbandingan Kinerja Model Klasifikasi Random Forest Sebelum dan Setelah Penerapan SMOTE
Sentimen Metrik Sebelum SMOTE Setelah SMOTE
Negatif Presisi 0.78 0.95
Recall 0.66 0.88
F1-Skor 0.72 0.91
Netral Presisi 0.61 0.80
Recall 0.82 0.94
F1-Skor 0.70 0.87
Positif Presisi 0.84 0.87
Recall 0.83 0.78
F1-Skor 0.83 0.82
Hasil klasifikasi awal, tanpa penyeimbangan kelas, menunjukkan tingkat akurasi keseluruhan sebesar 0.78, dengan nilai presisi, recall, dan f1-score yang cukup bervariasi antar kelas. Secara khusus, kelas 'positif' menunjukkan presisi yang tinggi (0.84) dan recall yang juga kuat (0.83), sementara kelas 'netral' mengalami presisi yang lebih rendah (0.61) namun dengan recall yang lebih tinggi (0.82). Kelas 'negatif', sementara itu, memperoleh presisi yang memadai (0.78) dan recall yang sedikit lebih rendah (0.66).
Setelah implementasi SMOTE, terjadi peningkatan signifikan dalam akurasi keseluruhan menjadi 0.87.
Hasil ini menandakan peningkatan yang substansial dalam keseimbangan kinerja antar kelas sentimen. Presisi untuk kelas 'negatif' meningkat secara dramatis hingga mencapai 0.95, sementara recall untuk kelas yang sama juga meningkat menjadi 0.88, yang terlihat pada peningkatan skor f1 mereka menjadi 0.91. Kelas 'netral' memperlihatkan peningkatan kinerja yang paling mencolok, dengan recall yang sangat tinggi (0.94) dan peningkatan presisi (0.80), menghasilkan skor f1 yang sangat baik sebesar 0.87. Untuk kelas 'positif', terlihat peningkatan presisi menjadi 0.87, meskipun terjadi penurunan kecil dalam recall (0.78); namun, skor f1 tetap kuat pada 0.82.
Perbandingan ini mengungkapkan bahwa penyeimbangan kelas dengan SMOTE tidak hanya meningkatkan akurasi keseluruhan model, tetapi juga mengoptimalkan keseimbangan antara presisi dan recall, mengurangi bias terhadap kelas mayoritas. Ini mengindikasikan bahwa model klasifikasi setelah SMOTE dapat lebih adil dan akurat dalam menganalisis feedback dari semua kategori sentimen, yang vital dalam menyediakan rekomendasi yang actionable dan berbasis data untuk peningkatan layanan kampus.
Penggunaan teknik SMOTE dalam proses klasifikasi ini memiliki implikasi yang signifikan terhadap analisis data teks dalam pendidikan. Melalui peningkatan kinerja model ini, institusi pendidikan dapat lebih percaya diri dalam menggunakan umpan balik mahasiswa sebagai dasar pengambilan keputusan strategis dan operasional.
5. Kesimpulan
Kesimpulan dari penelitian ini menegaskan pentingnya penggunaan teknik-teknik canggih dalam analisis sentimen feedback mahasiswa untuk meningkatkan layanan kampus. Dari hasil yang diperoleh, terlihat jelas bahwa penggunaan model Random Forest dalam klasifikasi teks memberikan hasil yang cukup memuaskan, dengan tingkat akurasi, presisi, dan recall yang baik. Namun, pengenalan teknik SMOTE untuk menyeimbangkan kelas dalam dataset telah membawa peningkatan yang signifikan dalam semua aspek metrik evaluasi, terutama dalam meningkatkan presisi dan recall untuk kelas negatif dan netral. Penelitian ini menunjukkan bahwa, meskipun feedback positif cenderung mendominasi dalam dataset asli, masih ada
kebutuhan penting untuk memahami dan menanggapi feedback negatif dan netral yang dapat memberikan wawasan mendalam tentang area yang memerlukan perhatian dan peningkatan. Dengan menerapkan SMOTE, kita berhasil mengurangi bias yang dihadapi oleh model klasifikasi yang cenderung mendukung kelas mayoritas, yang dalam hal ini adalah feedback positif. Kesimpulannya, aplikasi dari teknik SMOTE dalam analisis sentimen teks telah terbukti meningkatkan kinerja model klasifikasi Random Forest secara keseluruhan, menghasilkan pemahaman yang lebih berimbang dan mendalam tentang sentimen mahasiswa.
Hal ini memberikan dasar yang lebih kuat bagi pengambil keputusan di institusi pendidikan untuk merumuskan strategi dan intervensi yang lebih efektif, berdasarkan feedback yang dianalisis secara adil dan komprehensif.
Daftar Pustaka
[1] S. A. Aljawarneh, “Reviewing and exploring innovative ubiquitous learning tools in higher education,”
J Comput High Educ, vol. 32, no. 1, pp. 57–73, Apr. 2020, doi: 10.1007/s12528-019-09207-0.
[2] H. MULYONO, A. HADIAN, N. PURBA, and R. PRAMONO, “Effect of Service Quality Toward Student Satisfaction and Loyalty in Higher Education,” Journal of Asian Finance, Economics and Business, vol. 7, no. 10, pp. 929–938, Oct. 2020, doi: 10.13106/jafeb.2020.vol7.no10.929.
[3] M. Ravik, I. Aase, K. Akerjordet, K. Laugaland, and M. T. Gonzalez, “Nurse educators’ suggestions for a digital educational resource suitable for undergraduate student nurses’ placement studies: Qualitative empirical research,” Nurs Open, vol. 10, no. 8, pp. 5433–5445, Aug. 2023, doi: 10.1002/nop2.1782.
[4] H. MULYONO, A. HADIAN, N. PURBA, and R. PRAMONO, “Effect of Service Quality Toward Student Satisfaction and Loyalty in Higher Education,” Journal of Asian Finance, Economics and Business, vol. 7, no. 10, pp. 929–938, Oct. 2020, doi: 10.13106/jafeb.2020.vol7.no10.929.
[5] D. Khurana, A. Koli, K. Khatter, and S. Singh, “Natural language processing: state of the art, current trends and challenges,” Multimed Tools Appl, vol. 82, no. 3, pp. 3713–3744, Jan. 2023, doi:
10.1007/s11042-022-13428-4.
[6] J. Yang, “Research on Security Model Design Based on Computational Network and Natural Language Processing,” Mobile Information Systems, vol. 2022, 2022, doi: 10.1155/2022/7191312.
[7] J. S. Rhodes, A. Cutler, and K. R. Moon, “Geometry- and Accuracy-Preserving Random Forest Proximities,” IEEE Trans Pattern Anal Mach Intell, vol. 45, no. 9, pp. 10947–10959, Sep. 2023, doi:
10.1109/TPAMI.2023.3263774.
[8] C. Y. Chou and T. Y. Chuang, “Aspect and Sentiment Classification Mechanisms of Student After- Class Self-Evaluated Comments: Investigation on Nonsense Data, Feature Extraction, and Classification Models †,” Engineering Proceedings, vol. 38, no. 1, 2023, doi: 10.3390/engproc2023038043.
[9] B. S. Raghuwanshi and S. Shukla, “Classifying imbalanced data using SMOTE based class-specific kernelized ELM,” International Journal of Machine Learning and Cybernetics, vol. 12, no. 5, pp. 1255–
1280, May 2021, doi: 10.1007/s13042-020-01232-1.
[10] B. Singh Raghuwanshi and S. Shukla, “SMOTE based class-specific extreme learning machine for imbalanced learning ✩,” vol. 187, p. 104814, 2020, doi: 10.1016/j.knosys.
[11] N. Mechulam, D. Salvia, A. Rosá, and M. Etcheverry, “Building dynamic lexicons for sentiment analysis,” Inteligencia Artificial, vol. 22, no. 64, pp. 1–13, 2019, doi: 10.4114/intartif.vol22iss64pp1-13.
[12] M. Kaity and V. Balakrishnan, “An integrated semi-automated framework for domain-based polarity words extraction from an unannotated non-English corpus,” Journal of Supercomputing, vol. 76, no. 12, pp. 9772–9799, Dec. 2020, doi: 10.1007/s11227-020-03222-0.