JITE, 5 (1) January 2021 ISSN 2549-6247 (Print) ISSN 2549-6255 (Online)
JITE (Journal of Informatics and
Telecommunication Engineering)
Available online http://ojs.uma.ac.id/index.php/jite DOI : 10.31289/jite.v5i1.5292
Received: 27 May 2021 Accepted: 29 June 2021 Published: 15 July 2021
Comparison of C4.5 and Naïve Bayes Algorithms for Assessment of
Public Complaints Services
Martin1), Lala Nilawati2) *
1) Komisi Nasional Hak Asasi Manusia (Komnas HAM)
2)Program Studi Sistem Informasi, Fakultas Teknik dan Informatika, Universitas Bina Sarana
Informatika
*Coresponding Email: [email protected]
Abstrak
Pelayanan publik merupakan salah satu jenis pelayanan yang diberikan oleh pemerintah. Komisi Nasional Hak Asasi Manusia sebagai lembaga negara, salah satu fungsinya memberikan pelayanan pengaduan kasus-kasus pelanggaran HAM. Tujuan penelitian ini adalah untuk menemukan metode algoritma yang paling tepat dengan melihat hasil akurasi dan nilai Area Under Curve (AUC). Data yang digunakan adalah data hasil kuesioner tentang penilaian terkait pengaduan kasus-kasus pelanggaran HAM oleh masyarakat tahun 2018 sebanyak 1750 record. Data diolah menggunakan Algoritma C4.5 dan Naïve Bayes dengan tools Rapid Miner. Hasil penelitian menunjukkan bahwa Algoritma C4.5 memiliki akurasi yang lebih baik sebesar 99,49% dibandingkan dengan Naïve Bayes sebesar 95,66%. Nilai AUC yang dihasilkan algoritma C4.5 lebih baik yaitu sebesar 0,998 dan Naïve Bayes sebesar 0,996. Dalam penelitian ini dilakukan pengujian menggunakan uji t-test dengan Rapid Miner terhadap kedua algoritma, hasilnya menunjukkan bahwa kedua algoritma yang digunakan, memiliki perbedaan yang signifikan atau dapat diartikan pula memiliki perbedaan. Algoritma C4.5 juga menghasilkan sebuah pohon keputusan, dengan gain tertinggi terdapat pada atribut kemampuan.
Kata Kunci: Algoritma C4.5, Naïve Bayes, Penerimaan Pengaduan, Komnas HAM, Kepuasan Layanan.
Abstract
Public service is one type of service provided by the government. The National Human Rights Commission as a state institution, one of its functions is to provide complaints services for cases of human rights violations. The purpose of this study was to find the most appropriate algorithm method by looking at the results of the accuracy and the value of the Area Under Curve (AUC). The data used is data from a questionnaire on assessments related to complaints of cases of human rights violations by the public in 2018 as many as 1750 records. The data is processed using the C4.5 Algorithm and Naïve Bayes with Rapid Miner tools. The results showed that the C4.5 algorithm has a better accuracy of 99.49% compared to Naïve Bayes of 95.66%. The AUC value produced by the C4.5 algorithm is better at 0.998 and Naïve Bayes at 0.996. In this study, testing was conducted using a t-test with Rapid Miner on both algorithms, the results showed that the two algorithms used had significant differences or could also be interpreted as having differences. The C4.5 algorithm also produces a decision tree, with the highest gain in the ability attribute.
Keywords: Algorithm C4.5, Naïve Bayes, Acceptance of Complaints, Komnas HAM, Service Satisfaction.
How to Cite: Martin, & Nilawati, L. (2021). Comparison of C4.5 and Naïve Bayes Algorithms for Assessment of
Public Complaints Services. JITE (Journal Of Informatics And Telecommunication Engineering). 5 (1): 101-111
I.
PENDAHULUAN
Pelayanan publik merupakan salah satu jenis pelayanan yang diberikan oleh pemerintah. Komisi Nasional Hak Asasi Manusia (Komnas HAM) merupakan lembaga mandiri, yang kedudukannya setingkat dengan lembaga negara lainnya yang berfungsi melaksanakan fungsi pengkajian, penelitian, penyuluhan, pemantauan dan mediasi. Bagian Dukungan Pelayanan Pengaduan (DPP) adalah unit kerja yang memiliki fungsi dan wewenang menerima pelayanan pengaduan tentang pelanggaran HAM yang terjadi di Indonesia.
Standar Pelayanan adalah tolok ukur yang dipergunakan sebagai pedoman penyelenggaraan pelayanan dan acuan penilaian kualitas pelayanan, sebagai kewajiban dan janji penyelenggara kepada masyarakat dalam rangka pelayanan yang berkualitas, cepat, mudah, terjangkau, dan terukur (MenPan dan RB, 2014). Cara Komnas HAM dalam mengukur kepuasan penerimaan layanan pengaduan yang diberikan kepada masyarakat, yaitu dengan melakukan pengisian kuesioner. Proses dari penilaian kuesioner kepuasan layanan pengaduan masyarakat ini, masih terdapat kesalahan dalam memberikan hasil akhir kepuasan pelayanan dari setiap pengaduan. Hal ini dapat dilihat dari perbedaan penilaian yang diberikan dari setiap jawaban pertanyaan kuesioner yang diisi oleh responden. Jika nilai yang diberikan terhadap jawaban responden rendah, maka mendapatkan hasil akhir penilaian pelayanan yang lebih tinggi dari yang seharusnya begitu juga sebaliknya, dan tentu ini akan mempengaruhi dari hasil akhir terhadap kualitas penilaian pelayanan pengaduan.
Pada penelitian-penelitan sebelumnya yang berkaitan dengan penilaiaan kepuasan dan penggunaan algoritma C4.5 dan Naïve Bayes, dapat dilihat seperti penilaian dalam memprediksi memprediksi kepuasan penumpang Bus Rapid Transit (BRT) Trans Semarang, menggunakan algoritma C4.5 menunjukkan tingkat akurasi akhir yang cukup baik yakni sebesar 95% (Febriarini & Astuti, 2019). Hasil yang tidak berbeda didapat dalam penilaian terhadap Kepuasan Pelanggan Sewa Kamera Cikarang menggunakan menggunakan algoritma C 4.5 didapat akurasi sebesar 95% (Faisal, 2019). Algoritma C4.5 menunjukan tingkat akurasi yang tinggi juga sebesar 94.12% pada prediksi kepuasan mahasiswa terhadap kinerja Dosen di Kota Batam (Yulia & Dasa Putri, 2019). Akurasi Algoritma C4.5 dengan model Regresi
Linear Tradisional didapat bahwa Tingkat akurasi yang di peroleh oleh Algoritma C4.5 sebesar 78.26%,
nilai akurasi ini lebih tinggi daripada perhitungan yang didapat model Regresi Linear Tradisional yaitu sebesar 73.10% (Han et al., 2019). Penerapan algoritma C4.5 dipakai untuk menentukan atribut sebagai akar dan menghitung nilai informasi gain atribut (Riandari & Simangunsong, 2019). Algoritma C4.5 dapat memfasilitasi pengambil keputusan untuk memahami perspektif pengguna Terminal Bus Internasional Riga, dan memprediksi faktor terpenting yang berkontribusi terhadap kepuasan pelanggan (Tsami et al., 2018). Penerapan Decision Tree (Algoritma C4.5) digunakan juga dalam mengklasifikasikan kecendrungan siswa sekolah menengah untuk memilih TVET di Malaysia. Berbagai jenis model pohon keputusan pada penelitian ini dikembangkan berdasarkan algoritma dan kriteria (Hong, Chee Keong Ch’ng, & Roslan, 2021).
Penggunaan Algoritma Naïve Bayes mampu memberikan rekomendasi kepuasan layanan pendidikan di Nation Star Academy, melalui penilaian pembelajaran kepada guru-guru berdasarkan hasil evaluasi angket yang dilakukan kepada para siswa (Yulius, Brian, & Trisno, 2019). Algoritma Naïve Bayes bersifat probabilistik terlihat dari banyaknya data positif dan negatif yang tidak seimbang, menyebabkan kecenderungan ke kelas tertentu sehingga menyebabkan akurasi yang cukup rendah (Putri, Jondri, & Umbara, 2019). Algoritma Naïve Bayes menghasilkan pola yang memiliki ketepatan kecocokan sebesar 70.83%, ini menunjukan bahwa algoritma Naïve Bayes dapat memprediksi kelulusan siswa, sehingga model prediksi kelulusan siswa berhasil dibuat (Sembiring & Tambunan, 2021). Algoritma Naïve Bayes pada prediksi kemungkinan kelulusan siswa ketepatan waktu menghasilkan 5 jenis pola dengan nilai akurasi cukup tinggi (Rahayu, Jobiliong, & Antonny, 2021).
Algortima C4.5 dan Algoritma Naïve Bayes digunakan secara bersamaan untuk membandingkan hasil akurasi prediksi peringkat review pelanggan, dan diperoleh bahwa bahwa akurasi menggunakan
Naïve Bayes lebih tinggi (Songpan, 2017). Algoritma Naïve Baiyes dan C4.5 diujikan untuk 4 buah studi
kasus dan didapat hasil yang berbeda untuk setiap kasus (Kurniawan, 2018). Dalam prediksi menggunakan algoritma Decision Tree C4.5 dan Naïve Bayes, hasilnya menunjukan semua kelas pelanggan kinerja Algoritma Naïve Bayes lebih baik daripada Algoritma Decision Tree C4.5 dengan Accuracy 83,49% (Wardani & Ariasih, 2019). Komparasi 3 metode yaitu Algoritma C4.5, Naïve Bayes Dan Neural Network untuk klasifikasi tanah didapatkan algoritma terbaik yaitu Algoritma C4.5. Teknik data mining menggunakan berbagai algoritma seperti C4.5, algoritma CART, algoritma Naïve Bayes, algoritma EM dan SVM, dan lain lain. Pada algoritma-algoritma yang digunakan ini memecahkan masalah kompleks pertanian, dan memberikan hasil akurat yang membantu para pembudidaya tumbuhan di sektor pertanian. (Kaur, Chahal, & Sharma, 2021).
Pada peneltian yang dilakukan ini bertujuan menerapkan dataset kuesioner pengolahan data yang sudah melalui proses data cleaning, data integration, data selection, data transformation, data mining dan
pattern evaluation, kemudian mengujinya menggunakan dua algoritma yaitu Algortima C4.5 dan Naive Bayes. Pemilihan Algoritma C4.5, pada beberapa penelitian yang paling banyak digunakan untuk
menganalisa atau menguji data terkait kepuasan penilaian layanan adalah menggunakan algoritma C4.5. Sedangkan penggunaan algoritma Naïve Bayes dipilih karna pengolahan nilai atribut yang digunakan
adalah pengolahan kata, yang merupakan salah satu keunggulan Naïve Bayes untuk menguji klasifikasi yang dihasilkan, dan pada penelitian sebelumnya yang terkait kepuasan atau penilaian pelayanan belum banyak yang menggunakan Naïve Bayes.
II. METODE PENELITIAN
Penelitian ini dilakukan dalam beberapa tahapan mulai dari pengumpulan data, pengolahan data awal, pemilihan algoritma, modelling, pengujian, komparasi, evaluasi dan pemilihan algoritma serta penerapan (deployment).
Pengumpulan Data Pengolahan Awal Data
Pemilihan Algoritma
Algoritma C4.5 Naïve Bayes
Modeling Akurasi Algoritma C4.5 Akurasi Naïve Bayes Evaluasi dan Komparasi Algoritma dan Rule
terpilih Penerapan (Deployment)
Gambar 1. Kerangka Penelitian
Data yang digunakan dalam penelitian ini adalah data hasil kuesioner tentang penilaian terkait pengaduan kasus-kasus pelanggaran HAM oleh masyarakat pada tahun 2018 sebanyak 1750 record. Kuesioner yang digunakan memiliki 15 atribut pertanyaan yaitu sarana, wifi, ruang, buku tamu, tata cara, komunikasi, biaya, kemampuan, sikap, target, waktu, syarat, prosedur, produk dan akses. Data kuesioner penilaian pelayanan pengaduan diambil dari kantor Komnas HAM pusat (Jakarta) dan 6 kantor perwakilan Komnas HAM yaitu kantor perwakilan propinsi Aceh, kantor perwakilan propinsi Sumatera Barat, kantor perwakilan propinsi Kalimantan Barat, kantor perwakilan propinsi Sulawesi Tengah, kantor perwakilan propinsi Maluku dan kantor perwakilan propinsi Papua. Berikut tabel data penelitian yang diambil tahun 2018:
Tabel 1. Sampel Data Penelitian Tahun 2018
Saran
a Wifi Ruang Bukut Tamu Tata Cara Komunikasi Biaya Kemampuan Sikap Target Waktu Syarat Prosedur Produk Akses Hasil
9 9 9 10 9 9 9 9 9 9 9 9 9 8 8 Puas 8 8 9 9 8 8 8 8 8 9 9 9 9 8 8 Puas 8 8 8 8 7 8 7 8 8 6 8 8 8 8 9 Puas 7 7 7 9 5 8 5 8 8 8 8 8 8 8 8 Pua s 8 8 8 10 8 8 9 9 9 9 9 9 9 9 9 Pua s 7 9 9 9 8 6 9 8 8 9 9 9 9 9 9 Puas 9 9 9 9 9 9 9 9 9 9 9 9 9 9 8 Puas 8 8 8 10 9 9 9 9 9 8 8 8 8 8 8 Puas 8 9 8 9 9 9 8 8 8 7 8 8 8 8 8 Puas 8 9 9 10 9 9 7 7 7 8 7 7 7 9 9 Puas 7 8 7 9 8 8 8 8 8 8 8 8 8 8 8 Puas
8 8 8 10 8 8 9 9 9 9 9 9 9 9 9 Puas
9 9 10 9 8 6 9 8 8 9 9 9 9 9 9 Puas
9 8 9 9 9 9 7 9 9 9 9 9 9 9 9 Puas
Selanjutnya dilakukan teknik preprocessing, salah satunya adalah data cleansing yang digunakan untuk membersihkan nilai yang kosong, tidak konsisten atau ada data yang kosong (missing value dan
noisy). Data set yang digunakan dibuatkan kategori setiap atribut pertanyaan, kategori tersebut
menggunakan skala likert dengan range mulai dari nilai satu sampai dengan sepuluh dengan lima kategori. Berikut adalah tabel skala likert dan hasil transformasi data dengan cara nilai dari setiap nilai atribut yang berupa numerikal akan di transformasikan ke dalam bentuk kategorikal.
Tabel 2. Skala likert untuk nilai kategori kuesioner
Nilai Kategori
1-2 Sangat Tidak Puas
3-4 Tidak Puas
5-6 Kurang
7-8 Puas
9-10 Sangat Puas
Tabel 3. Atribut, Nilai dan Kategori Kuesioner
No Atribut Nilai Kategori
1 Ketersediaan sarana pengaduan atas pelayanan (Sarana) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
2 Ketersediaan fasilitas Wi-Fi Komnas HAM dalam pelayanan (Wifi) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
3 Kenyamanan ruang pelayanan (Ruang) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
4 Ketersediaan buku tamu pada pelayanan (Buku Tamu) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
5 Kejelasan tata cara penanganan pengaduan atas pelayanan (Tata Cara) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
6 Kemudahan komunikasi melalui sarana komunikasi (Komunikasi) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
7 Informasi tentang biaya pelayanan (Biaya) 1-2 3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
8 Kemampuan petugas dalam memberikan pelayanan (Kemampuan) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
9 Sikap petugas dalam memberikan pelayanan (Sikap) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
10 Pelayanan selesai sesuai dengan target waktu penyelesaian layanan (Target) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
11 Waktu pelaksanaan layanan sesuai dengan waktu layanan (Waktu) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
12 Persyaratan pelayanan mudah dipahami dan dipenuhi (Syarat) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
13 Kejelasan informasi mekanisme dan prosedur pelayanan (Prosedur) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas 14 Produk layanan diberikan sesuai dengan ketentuan yang telah ditetapkan (Produk) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
15 Kemudahan akses website Komnas HAM (Akses) 1-2
3-4 5-6 7-8 9-10
Sangat Tidak Puas Tidak Puas
Kurang Puas Sangat Puas
Setelah data awal melalui proses data cleansing, kemudian melakukan transformasi data dengan cara nilai dari setiap nilai atribut yang berupa numerikal akan di transformasikan ke dalam bentuk
kategorikal disesuaikan dengan nilai kategori yang terdapat pada skala likert yang ditentukan. Hasil
transformasi data sample data set penelitian yaitu:
Tabel 4. Sampel Dataset Penelitian
Sarana Wifi Ruang Buku
Tamu Tata Cara Komunikasi Biaya Kemam puan Sikap Target Waktu Syarat Prose dur Produk Akses Hasil
Sangat
Puas Sangat Puas Sangat Puas Sangat Puas t Puas Sanga Sangat Puas t Puas Sanga Sangat Puas Sangat Puas t Puas Sanga t Puas Sanga t Puas Sanga Sangat Puas Puas Puas Puas
Puas Puas Sangat
Puas Sangat Puas Puas Puas Puas Puas Puas Sangat Puas t Puas Sanga t Puas Sanga Sangat Puas Puas Puas Puas
Puas Puas Puas Puas Puas Puas Puas Puas Puas Kuran
g Puas Puas Puas Puas Sangat Puas Puas
Puas Puas Puas Sangat
Puas Kurang Puas Kurang Puas Puas Puas Puas Puas Puas Puas Puas Puas
Pengujian model menggunakan 10 folds cross validation yang akan secara acak membaginya menjadi 10 data set. Proses ini diulang sebanyak 10 kali dan hasil dari pengujian model berupa accuracy dan AUC.
Cross Validation adalah teknik validasi dengan membagi data secara acak kedalam k bagian dan
masing-masing bagian akan dilakukan proses klasifikasi (Han & Kamber, 2007). Secara umum pengujian nilai k dilakukan sebanyak 10 kali untuk memperkirakan akurasi estimasi
Gambar 2. Ilustrasi 10 Fold Cross Validation
Pada proses ini, peneliti menggunakan semua dataset yang ada. Dataset kemudian diuji dengan metode yang diusulkan pada aplikasi rapidminer. Berikut adalah model yang akan di implementasikan kedalam tools rapidminer:
Gambar 3. Model pengujian dengan cross validation
Pada Gambar 3 terlihat model yang digunakan untuk cross validation pada rapidminer. Kedua algoritma disatukan dengan menggunakan operator multiply dan operator cross validation.
III. HASIL DAN PEMBAHASAN
Berdasarkan data yang sudah diolah dengan model algoritma C4.5 diperoleh hasil akurasi sebagai berikut:
Puas t Puas Puas t Puas t Puas t Puas t Puas t Puas t Puas t Puas
Puas Sangat
Puas Sangat Puas Sangat Puas Puas Kurang Sangat Puas Puas Puas Sangat Puas t Puas Sanga t Puas Sanga Sangat Puas Sangat Puas t Puas Sanga Puas
Sangat
Puas Sangat Puas Sangat Puas Sangat Puas t Puas Sanga Sangat Puas t Puas Sanga Sangat Puas Sangat Puas t Puas Sanga t Puas Sanga t Puas Sanga Sangat Puas Sangat Puas Puas Puas
Puas Puas Puas Sangat
Puas t Puas Sanga Sangat Puas t Puas Sanga Sangat Puas Sangat Puas Puas Puas Puas Puas Puas Puas Puas
Puas Sangat Puas Puas Sangat Puas Sanga t Puas Sangat Puas
Puas Puas Puas Puas Puas Puas Puas Puas Puas Puas
Puas Sangat
Puas Sangat Puas Sangat Puas t Puas Sanga Sangat Puas Puas Puas Puas Puas Puas Puas Puas Sangat Puas t Puas Sanga Puas
Puas Puas Puas Sangat
Gambar 4. Nilai Akurasi algoritma C4.5
Berdasarkan Gambar 4 terlihat bahwa jumlah true positive (tp) adalah 1702 record diklasifikasi sebagai true puas dan false negative (fn) sebanyak 4 record diklasifikasi sebagai puas tetapi tidak puas. Berikutnya 5 record false positive (fp) diklasifikasikan sebagai tidak puas tetapi puas dan 39 record untuk
true negative (tn) diklasifikasikan sebagai tidak puas. Hasil kinerja model klasifikasi algoritma C4.5 yang
ditunjukan Gambar 4, akan di evaluasi berdasarkan pada pengujian objek yang diprediksi dengan benar dan salah, hitungan ini ditabulasikan menggunakan Confusion Matrix. Confusion Matrix adalah alat yang berguna untuk menganalisis seberapa baik classifier dapat mengenali tupel dari kelas yang berbeda (Han & Kamber, 2006). Confusion matrix memberikan rincian klasifikasi, kelas yang diprediksi akan ditampilkan di bagian atas matrix dan kelas yang diobservasi ditampilkan di bagian kiri (Gorunescu, 2011). Evaluasi model confussion matrix menggunakan tabel seperti matrix dibawah ini:
Tabel 5. Matrik Klasifikasi untuk Model 2 Class
Classification Predicted Class
Class=Yes Class=No
Observed Class Class=Yes Class=No (True Positive-TP) (False Positive-FP) (False Negative-FN) (True Negative-TN)
Sumber: Gorunescu (2011)
Akurasi dapat dihitung dengan menggunakan rumus berikut:
Accuracy = (1)
TP : Jumlah kasus positif yang diklasifikasikan sebagai positif FP : Jumlah kasus negatif yang diklasifikasikan sebagai positif TN : Jumlah kasus negatif yang diklasifikasikan sebagai negative FN : Jumlah kasus positif yang diklasidikasikan sebagai negative
Hasil algoritma C4.5 sebesar 99,49% dapat dihitung untuk mencari nilai accuracy, sensitivity,
specificity, ppv dan npv hasilnya pada persamaan berikut:
v
Kurva ROC adalah tool dua dimensi yang digunakan untuk menilai kinerja klasifikasi yang menggunakan dua class keputusan, masing-masing objek dipetakan ke salah satu elemen dari himpunan pasangan, positif atau negatif. Pada kurva ROC, TP rate diplot pada sumbu Y dan FP rate diplot pada sumbu X. Untuk klasifikasi data mining, nilai AUC dapat dibagi menjadi beberapa kelompok, yaitu: (Gorunescu, 2011). Accuracy = tp+tn = 1702 + 39 = 1741 = 0.9949 = 99.49% tp+tn+fn 1702 + 39 + 5 + 4 1750 Sensitivity = tp = 1702 = 1702 = 0.9977 = 99.77% tp+fn 1702 + 4 1706 Specificity= tn = 39 = 39 = 0.8864 = 88.64% tn+fp 39 + 5 44 Ppv = tp = 1702 = 1702 = 0.9971 = 99.71% tp+fp 1702 + 5 1707 Npv = tn = 39 = 39 = 0.9070 = 90.70% tn+fn 39 + 4 43
Tabel 6. Perfomance Keakurasian AUC Performance Klasifikasi 0.90-1.00 Excellent Classification 0.80-0.90 Good Classification 0.70-0.80 Fair Classification 0.60-0.70 Poor Classification 0.50-0.60 Failure
Dari pengujian dengan model algoritma C4.5, didapatkan grafik ROC seperti Gambar 5 dengan nilai AUC (Area Under Curve) sebesar 0,998 dengan diagnosa hasilnya Excellent classification.
Gambar 5. Nilai AUC dengan algoritma C4.
Sementara dengan menggunakan Naïve Bayes diperoleh akurasi sebagai berikut:
Gambar 6. Nilai Akurasi Naïve Bayes
Berdasarkan Gambar 6 menunjukkan jumlah true positive (tp) adalah 1631 record diklasifikasi sebagai true puas dan false negative (fn) sebanyak 75 record diklasifikasi sebagai puas tetapi tidak puas. Berikutnya 1 record false positive (fp) diklasifikasikan sebagai tidak puas tetapi puas dan 43 record untuk
true negative (tn) diklasifikasikan sebagai tidak puas. Akurasi algoritma Naïve Bayes adalah sebesar
95,66% dan dapat dihitung untuk mencari nilai accuracy, sensitivity, specificity, ppv dan npv hasilnya pada persamaan berikut:
v
Accuracy = tp+tn = 1631 + 43 = 1674 = 0.9566 = 95.66% tp+tn+fp+fn 1631 + 43 + 1 + 75 1750 Sensitivity = tp = 1631 = 1631 = 0.9743 = 97.43% tp+fn 1631 + 43 1674 Specificity= tn = 43 = 43 = 0.9773 = 97.73% tn+fp 43 + 1 44 Ppv = tp = 1631 = 1631 = 0.9994 = 99.94% tp+fp 1631 + 1 1632 Npv = tn = 75 = 75 = 0.6356 = 63.56% tn+fn 75 + 43 118Grafik ROC nilai AUC (Area Under Curve) Naïve Bayes yang didapatkan sebesar 0,996 dengan diagnosa hasilnya termasuk Excellent classification.
Gambar 7. Nilai AUC Naïve Bayes
Pada penelitian ini juga dilakukan pengujian menggunakan uji t-test dengan rapidminer terhadap kedua algoritma. Metode t-test adalah metode pengujian hipotesis dengan menggunakan satu individu (objek penelitian) dengan menggunakan dua perlakuan yang berbeda. Walaupun dengan menggunakan objek yang sama tetapi sampel tetap terbagi menjadi dua yaitu data dengan perlakuan pertama dan data dengan perlakuan kedua. Performance dapat diketahui dengan cara membandingkan kondisi objek penelitian pertama dan kondisi objek pada penelitian kedua. Model yang digunakan sebagai berikut:
Gambar 8. Model pengujian dengan t-test
Pada Gambar 8 terlihat model yang digunakan untuk pengujian t-test pada rapidminer. Kedua algoritma disatukan dengan operator multiply dan operator t-test untuk menghasilkan nilai. Pada Gambar 4.10 menunjukkan model yang dibangun dengan menggunakan dua operator untuk algoritma C4.5 dan
Naïve Bayes dengan menambahkan operator set role. Dari model tersebut di dapatkan hasilnya sebagai
berikut:
Tabel 7. Hasil Pengujian T-Test C4.5 Naïve Bayes C4.5 - 0.000 Naïve Bayes - -
Berdasarkan Tabel 7 menunjukkan bahwa kedua algoritma yang digunakan memiliki perbedaan yang signifikan atau dapat diartikan pula memiliki perbedaan. Nilai standar alpha T-Test adalah 0,05, apabila diperoleh nilai uji beda < 0,05 maka dapat diartikan bahwa adanya perbedaan antara algoritma, namun jika nilai uji beda yang diperoleh >0,05, maka dapat diartikan bahwa tidak ada perbedaan antara algoritma. Sementara itu algoritma C4.5 juga menghasilkan sebuah pohon keputusan. Dari hasil pengujian, terlihat pada Gambar 9 bahwa gain tertinggi yang menjadi akar terdapat pada atribut kemampuan. Dari 15
atribut yang digunakan, hanya ada 8 atribut terpilih dalam model keputusan yang dibuat oleh algoritma C4.5. Pohon keputusan yang dihasilkan adalah sebagai berikut:
Gambar 9. Model Pohon Keputusan Algoritma C4.5
IV. SIMPULAN
Pengolahan data menggunakan algoritma C4.5 dan Naïve Bayes menghasilkan nilai akurasi yang berbeda. Akurasi alogitma C4.5 mempunyai nilai yang lebih baik sebesar 99,43%, sedangkan Naïve Bayes sebesar 95,66%. Untuk evaluasi menggunakan ROC curve menghasilkan nilai yang berbeda juga. AUC untuk model algortima C4.5 menghasilkan nilai lebih baik sebesar 0,988 sedangkan Naïve Bayes sebesar 0,996. Kedua nilai AUC algoritma termasuk dengan diagnosa Excellent classification. Dari hasil pengujian dan evaluasi, dapat dilihat akurasi dan AUC dengan menggunakan algoritma C4.5 lebih baik dibandingkan dengan Naïve Bayes, maka algortima C4.5 dapat memberikan solusi untuk permasalahan dalam prediksi penilaian kepuasan layanan pengaduan di Komnas HAM. Pada pengembangan penelitian selanjutnya berdasarkan rule yang dihasilkan algoritma C4.5, akan diterapkan kedalam pembuatan aplikasi penilaian pelayanan pengaduan, yang akan memudahkan responden untuk melakukan input data kuesioner, memproses data kuesioner dan dapat menampilkan secara langsung hasil penilaian yang diberikan terkait puas atau tidak puasnya layanan.
DAFTAR PUSTAKA
Faisal, S. (2019). Klasifikasi data minning menggunakan algoritma C4.5 terhadap kepuasan pelanggan sewa kamera cikarang. Jurnal Ilmu Komputer & Teknologi Informasi, 4(April), 1–8.
Febriarini, A. S., & Astuti, E. Z. (2019). Penerapan Algoritma C4 . 5 untuk Prediksi Kepuasan Penumpang Bus Rapid Transit (BRT) Trans Semarang. Jurnal Eksplora Informatika, 95–103.
Gorunescu, F. (2011). Data Mining: Concepts and Techniques. Verlag berlin Heidelberg: Springer.
Han, J., Fang, M., Ye, S., Chen, C., Wan, Q., & Qian, X. (2019). Using Decision Tree to Predict Response Rates of Consumer Satisfaction , Attitude , and Loyalty Surveys. Journal Sustainability.
Hong, C. M., Chee Keong Ch’ng, & Roslan, T. N. (2021). Application of Decision Tree in Classifying Secondary School Students’ Tendencies to Choose TVET in Malaysia. Turkish Journal of Computer and
Mathematics Education (TURCOMAT), 12(3), 3002–3012.
Kaur, P., Chahal, J. K., & Sharma, T. (2021). A Data Mining Approach for Crop Yield Prediction in Agriculture Sector. Advances in Mathematics: Scientific Journal, 10(3), 1425–1430. Union of Researchers of Macedonia. Retrieved from https://research-publication.com/wp-content/uploads/2021/vol-10-n03/AMSJ-2021-N03-32.pdf
Kurniawan, Y. I. (2018). Perbandingan Algoritma Naive Bayes dan C.45 dalam Klasifikasi Data Mining.
Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK), 5(4), 455–464.
Putri, A. A., Jondri, & Umbara, R. F. (2019). Analisis Sentimen Terhadap Opini Mahasiswa Pada Survei Kepuasan Terhadap Fasilitas Dan Layanan Universitas Telkom Dengan Menggunakan Algoritma Naive Bayes. eProceedings of Engineering, 6(2), 8692–8703.
Rahayu, P. C., Jobiliong, E., & Antonny. (2021). Application of Prediction Time of Graduation Using the Naïve Bayes (JIEM Special Edition Seminar Nasional Teknik Manajemen Industri (SENTRA)). Journal
of Industrial Engineering Management, 38–44.
Riandari, F., & Simangunsong, A. (2019). Penerapan algoritma C4.5 untuk mengukur tingkat kepuasan mahasiswa. Jurnal Mantik Penusa, 3(2), 1–7.
Sembiring, M. T., & Tambunan, R. H. (2021). Analysis of graduation prediction on time based on student academic performance using the Naïve Bayes Algorithm with data mining implementation (Case study: Department of Industrial Engineering USU). IOP Conference Series: Materials Science and
Engineering, 1122(1), 012069.
Songpan, W. (2017). The Analysis and Prediction of Customer Review Rating Using Opinion Mining. 2017
IEEE 15th International Conference on Software Engineering Research, Management and Applications (SERA), 71–77. IEEE.
Tsami, M., Adamos, G., Nathanail, E., Budiloviča, E. B., Jackiva, I. Y., & Magginas, V. (2018). A Decision Tree Approach for Achieving High Customer Satisfaction at Urban Interchanges. Journal of Transport and
Telecommunication, 19(3), 194–202.
Wardani, N. W., & Ariasih, N. K. (2019). Analisa Komparasi Algoritma Decision Tree C4. 5 dan Naïve Bayes untuk Prediksi Churn Berdasarkan Kelas Pelanggan Retail. International Journal of Natural Science
and Engineering, 3(3), 103–112.
Yulia, & Dasa Putri, A. (2019). Data Mining Menggunakan Algoritma C4.5 Untuk Memprediksi Kepuasan Mahasiswa Terhadap Kinerja Dosen Di Kota Batam. Jurnal CBIS, 02, 56–66.
Yulius, H., Brian, K., & Trisno, I. B. (2019). Perancangan Sistem Informasi Kepuasan Layanan Pendidikan Dengan Pendekatan Naïve Bayes Studi Kasus Di Nation Star Academy. Prosiding SNST ke-10 Tahun