Perbandingan Algoritma Machine Learning untuk Memprediksi Kelangsungan Hidup Penumpang Titanic

(1)

Perbandingan Machine Learning Untuk Memprediksi Kelangsungan Hidup Penumpang Titanic

Dina Pani Safira, Falhamilat Wikron, Mutiara Zahira Rissa

Fakultas Sains dan Teknologi, Sistem Informasi, Universitas Islam Negeri Sultan Syarif Kasim Riau, Pekanbaru, Indonesia Email: ^1,*[email protected], ²[email protected], ³[email protected]

suska.ac.id

Email Penulis Korespondensi: [email protected]

Abstrak−Penelitian ini membandingkan kinerja tujuh algoritma machine learning untuk memprediksi kelangsungan hidup penumpang Titanic menggunakan dataset yang terdiri dari 891 penumpang, di mana 342 penumpang selamat dan 549 tidak selamat. Algoritma yang dibandingkan meliputi Naïve Bayes Classifier (NBC), K-Nearest Neighbors (KNN), C4.5, Random Forest, Logistic Regression, Neural Network, dan Support Vector Machine (SVM). Dataset ini mencakup 12 atribut seperti usia, jenis kelamin, kelas tiket, jumlah saudara, dan status kelangsungan hidup. Evaluasi algoritma dilakukan dengan menggunakan metrik akurasi, presisi, dan recall, serta validasi K-Fold Cross Validation dengan K=10. Hasil penelitian menunjukkan bahwa Logistic Regression memiliki akurasi tertinggi (76,4%), diikuti oleh Random Forest (79,2%) dan C4.5 (79,3%). Sementara itu, SVM memiliki recall tertinggi (77,9%), yang menunjukkan kemampuannya dalam mendeteksi penumpang yang selamat.

Penelitian ini memberikan wawasan baru mengenai efektifitas algoritma dalam prediksi kelangsungan hidup, serta berpotensi digunakan dalam peningkatan strategi penyelamatan oleh organisasi seperti International Maritime Rescue Federation (IMRF).

Kata Kunci: Kelangsungan Hidup, Machine Learning, Prediksi Titanic

Abstract−This study compares the performance of seven machine learning algorithms to predict the survival of Titanic passengers using a dataset consisting of 891 passengers, of which 342 passengers survived and 549 did not. The algorithms compared include Naïve Bayes Classifier (NBC), K-Nearest Neighbors (KNN), C4.5, Random Forest, Logistic Regression, Neural Network, and Support Vector Machine (SVM). The dataset includes 12 attributes such as age, gender, ticket class, number of siblings, and survival status. Algorithm evaluation was conducted using accuracy, precision, and recall metrics, as well as K-Fold Cross Validation validation with K=10. The results showed that Logistic Regression had the highest accuracy (76.4%), followed by Random Forest (79.2%) and C4.5 (79.3%). Meanwhile, SVM has the highest recall (77.9%), which shows its ability to detect surviving passengers. This research provides new insights into the effectiveness of algorithms in survival prediction, and could potentially be used in the improvement of rescue strategies by organizations such as the International Maritime Rescue Federation (IMRF).

Keywords: Machine Learning, Survival, Titanic Prediction.

1. PENDAHULUAN

Titanic adalah sebuah bencana kapal yang dalam pelayaran perdananya tenggelam di Atlantik utara pada tanggal 15 April 1912, menewaskan 1502 dari 2.224 penumpang dan awaknya [1]. Meskipun sudah ada kesimpulan mengenai penyebab tenggelamnya kapal tersebut, analisis data mengenai apa yang mempengaruhi kelangsungan hidup para penumpang masih terus berlanjut hingga saat ini [2]. Pendekatan yang dilakukan adalah dengan menggunakan kumpulan data yang tersedia untuk umum dari sebuah situs web yang dikenal sebagai Kaggle [3].

Kumpulan data Titanic yang tersedia di Kaggle memberikan informasi komprehensif mengenai karakteristik penumpang, termasuk atribut seperti usia, jenis kelamin, status ekonomi, kelas kabin, dan ukuran keluarga [4]. Data ini memungkinkan penerapan berbagai teknik analisis data dan machine learning untuk menggali pola yang mungkin memengaruhi kemungkinan kelangsungan hidup. Pendekatan ini tidak hanya memberikan wawasan tentang tragedi Titanic tetapi juga bisa diterapkan pada situasi serupa di masa depan [5].

Tujuan dari penelitian ini adalah untuk membandingkan kinerja tujuh algoritma machine learning yang berbeda, yaitu Naïve Bayes Classifier (NBC), K-Nearest Neighbors (KNN), C4.5, Random Forest, Logistic Regression, Neural Network, dan Support Vector Machine (SVM). Setiap algoritma memiliki karakteristik dan metode yang berbeda dalam mengolah data, sehingga pemahaman mendalam tentang bagaimana masing-masing algoritma berfungsi sangat penting [6]. Misalnya, Naïve Bayes menggunakan pendekatan probabilistik yang efektif untuk klasifikasi, sedangkan KNN mengandalkan jarak antara titik data untuk mengklasifikasikan. Di sisi lain, Random Forest menggabungkan banyak pohon keputusan untuk meningkatkan akurasi, dan Logistic Regression dapat memberikan insight mengenai hubungan antara variabel independen dan dependen [7].

Dalam penelitian ini, setiap algoritma akan diuji dan dievaluasi berdasarkan akurasi dan metrik kinerja lainnya, seperti presisi, recall, dan auc. Proses validasi yang ketat akan memastikan bahwa hasil yang diperoleh tidak hanya akurat tetapi juga dapat diandalkan dalam konteks dunia nyata. Dengan demikian, penelitian ini tidak hanya

(2)

bertujuan untuk memberikan pemahaman yang lebih baik mengenai data Titanic tetapi juga untuk berkontribusi pada pengembangan metode klasifikasi yang lebih efektif dalam konteks yang lebih luas [8].

Terdapat beberapa penelitian yang menjadi rujukan dalam penelitian ini. Pertama, [1] mengkaji penggunaan algoritma Random Forest untuk memprediksi kelangsungan hidup penumpang Titanic dengan dataset 891 penumpang, menghasilkan akurasi tinggi. Kedua, [2] menerapkan algoritma C4.5 pada 1.300 penumpang dan menemukan bahwa atribut seperti usia dan jenis kelamin berpengaruh signifikan terhadap kelangsungan hidup.

Ketiga, [3] membandingkan beberapa algoritma, termasuk Logistic Regression dan K-Nearest Neighbors (KNN), dengan KNN mencapai akurasi 83,5%.

Penelitian ini berbeda karena akan membandingkan tujuh algoritma klasifikasi: Naïve Bayes Classifier (NBC), K-Nearest Neighbors (KNN), C4.5, Random Forest, Logistic Regression, Neural Network, dan Support Vector Machine (SVM). Selain itu, penelitian ini menggunakan 12 atribut yang relevan untuk menganalisis kelangsungan hidup penumpang Titanic, bertujuan untuk mendapatkan wawasan lebih dalam mengenai efektivitas masing-masing algoritma.

Hasil dari penelitian ini diharapkan dapat memberikan wawasan berharga bagi International Maritime Rescue Federation (IMRF), organisasi yang berfokus pada peningkatan kapasitas penyelamatan di laut. Dengan menerapkan model prediksi yang dihasilkan, IMRF dapat merancang strategi penyelamatan yang lebih efektif, meningkatkan efisiensi operasional, dan berpotensi menyelamatkan lebih banyak nyawa dalam situasi darurat.

Paper ini terdiri dari empat bab. Bab pertama menjelaskan latar belakang, rumusan masalah, dan tujuan penelitian. Bab kedua memaparkan mengenai metodologi penelitian mulai dari pengumpulan data hingga pengujian dengan tools Orange. Bab ketiga memaparkan hasil dan pembahasan dari perbandingan performa ketujuh algoritma.

Bab terakhir berisi kesimpulan dari penelitian ini.

2. METODOLOGI PENELITIAN

Penelitian ini mencakup lima tahapan utama: pencarian data dari Kaggle, praproses data, pembagian data menjadi set latih dan uji, pembuatan model dengan algoritma seperti Logistic Regression, Naive Bayes, KNN, C4.5, Random Forest, SVM dan Neural Network serta perbandingan performa model untuk evaluasi kinerja. Tahapan-tahapan tersebut ditunjukkan pada Gambar 1.

Gambar 1. Metodologi Penelitian 2.1 Pengumpulan Data

Data yang digunakan dalam penelitian ini bersumber dari Kaggle, sebuah platform pencarian data yang menyediakan berbagai dataset untuk keperluan analisis. Dataset yang dipilih adalah Titanic Dataset, yang berisi informasi mengenai penumpang kapal Titanic, termasuk fitur-fitur demografis dan status kelangsungan hidup.

(3)

2.2 Praproses Data

Pada praproses data dilakukan data cleaning dan transformasi data. Data cleaning yang dilakukan adalah penghapusan baris data yang mengandung nilai Null. Penghapusan tersebut dilakukan dengan menggunakan filter Impute Missing Value pada tools Orange. Sedangkan transformasi data yang dilakukan adalah normalisasi data dengan menggunakan Normalize to Interval [0,1]. Normalisasi ini dilakukan dengan filter Normalize Features pada tools Orange.

2.3 Pembagian Data Latih dan Data Uji

Proses pengujian menerapkan K-Fold Cross Validation (K=10) yang dapat diatur pada widget "Test and Score" pada tools Orange. Metode ini membagi keseluruhan data menjadi 10 subset, di mana setiap subset digunakan secara bergantian sebagai data testing, sementara 9 subset lainnya digunakan sebagai data training. Pendekatan ini memungkinkan estimasi kesalahan prediksi kinerja model yang lebih akurat [9].

2.4 Pembuatan Model Klasifikasi

Pada Penilitan ini digunakan 7 algoritma klasifikasi yaitu NBC, K-NN, C4.5, Random Forest, Logistic Regression, Neural Network dan SVM.

a. Naïve Bayes Classifier

Pada algoritma NBC, widget Naïve Bayes (NBC) digunakan untuk melatih model dengan data training di Orange, kemudian kinerja model dievaluasi menggunakan widget Test & Score pada data testing. Dalam proses perhitungan, Orange secara otomatis melakukan penanganan smoothing tanpa perlu pengaturan tambahan untuk menangani nilai probabilitas 0 (nol) [10].

b. K-Nearest Neighbor

Pada algoritma K-NN, dilakukan 10 kali percobaan dengan mencoba berbagai nilai parameter K. Nilai K yang diuji pada K-NN adalah K = 3, 5, 7, 9, 11, 13, 15, 17, 19, dan 21. Widget yang digunakan adalah KNN pada data training di Orange, kemudian model diaplikasikan dan kinerjanya dievaluasi menggunakan widget Test & Score pada data testing. Orange secara otomatis menggunakan Euclidean distance sebagai metode pengukuran jarak untuk atribut numerik tanpa perlu pengaturan tambahan [11].

c. C4.5

Pada algoritma C4.5, digunakan widget Decision Tree pada kolom data training di Orange, kemudian model diaplikasikan dan kinerjanya dievaluasi menggunakan widget Test & Score pada kolom data testing.

Parameter yang digunakan mencakup pruning dan pre-pruning, yang secara otomatis diterapkan oleh Orange untuk meningkatkan akurasi hasil model [12].

d. Random Forest

Pada algoritma Random Forest, digunakan widget Random Forest pada kolom data training di Orange.

Model dilatih dengan menggunakan data training yang telah disiapkan, kemudian model diaplikasikan dan kinerjanya dievaluasi menggunakan widget Test & Score pada kolom data testing [13].

e. Logistic Regression

Pada algoritma Logistic Regression, digunakan widget Logistic Regression di kolom data training dalam Orange. Setelah model dilatih menggunakan data tersebut, model diterapkan pada data testing, dan kinerjanya dievaluasi dengan widget Test & Score [14]

f. Neural Network

Algoritma Neural Network menggunakan widget Neural Network di Orange untuk melatih model pada data training. Model ini terdiri dari lapisan input, tersembunyi, dan output, dengan Orange otomatis mengatur parameter dasar. Kinerjanya dievaluasi dengan Test & Score pada data testing [15].

g. SVM

Algoritma SVM memakai widget SVM di Orange untuk mencari hyperplane optimal yang memisahkan kelas data. Kernel linear digunakan secara default, dan kinerjanya diuji menggunakan Test & Score untuk mengevaluasi performa model [16].

2.5 Perbandingan Performa

Setelah penerapan setiap model klasifikasi, evaluasi dilakukan menggunakan confusion matrix untuk menghitung metrik kinerja seperti akurasi, presisi, dan recall. Proses ini dilakukan dengan widget Test & Score di Orange, yang memberikan analisis menyeluruh tentang kinerja model berdasarkan data testing [17]. Selanjutnya, dilakukan analisis perbandingan akurasi, presisi, dan recall antara ketiga algoritma klasifikasi yang diuji, yaitu NBC, K-NN, dan C4.5.

(4)

Untuk algoritma K-NN, evaluasi dilakukan dengan mempertimbangkan berbagai nilai parameter K guna menentukan nilai optimal yang menghasilkan performa terbaik. Rumus untuk menghitung akurasi dapat dilihat pada Persamaan 1 [18]. Rumus untuk menghitung nilai presisi dapat dilihat pada persamaan 2. Rumus untuk menghitung nilai recall dapat dilihat pada persamaan 3.

3 HASIL DAN PEMBAHASAN

3.1 Hasil Pengumpulan Data

Pada tahapan ini dilakukan analisis terhadap data penumpang Titanic yang bersumber dari dataset publik yang diperoleh melalui platform Kaggle. Data yang digunakan pada penelitian ini mencakup informasi tentang penumpang kapal Titanic, termasuk atribut- atribut penting seperti usia, jenis kelamin, kelas tiket, jumlah saudara, pasangan, dan apakah penumpang tersebut selamat atau tidak.

Data yang diperolah dalam bentuk format .csv berisi total 891 data penumpang Titanic, yang terdiri dari 12 atribut penentu kondisi penumpang. Dari data tersebut, terdapat 342 penumpang yang telah selamat (label kelas “Yes”) dan 549 penumpang yang tidak selamat (label kelas “No”). Tabel.1 berikut menjelaskan distribusi data serta atribut- atribut yang digunakan dalam penelitian ini.

Tabel 1. Penjelasan Atribut Data

Atribut Kode Keterangan Deskripsi

Passengerld A1 ID Penumpang

Nomor ID unik yang diberikan untuk setiap penumpang

Pclass A2 Kelas Penumpang 1 = Kelas 1, 2 = Kelas 2, 3 = Kelas 3

Name A3 Nama Penumpang Nama Lengkap Penumpang

Sex A4 Jenis Kelamin 1 = Male (Pria), 2 = Female (Wanita)

Age A5 Usia Penumpang Usia Penumpang dalam tahun

SibSp A6 Jumlah Saudara/Anak yang ikut

Jumlah saudara atau anak yang ikut bersama penumpang

Parch A7

Jumlah Orang Tua/Anak yang

ikut Jumlah orang tua atau anak yang ikut bersama

penumpang

Ticket A8 Nomor Tiket Nomor tiket yang dimiliki oleh penumpang

Fare A9 Tarif Tiket Harga tiket yang dibayar dalam satuan Pound

Inggris

Cabin A10 Nomor Kamar Nomor kamar penumpang dikapal, jika ada

Embarked

A11 Pelabuhan Tempat Naik 1 = Cherbourg, 2 = Queenstown, 3 = Southamton

Survived

Status Status Kelangsungan Hidup YES = Selamat NO = Tidak Selamat

Tabel 2. Sampel Data Titanic

(5)

No A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 Status

D1 1 3 1 1 22 1 0 A/5 21171 7.25 Null 3 NO

D2 2 1 2 2 38 1 0 PC 17599 712.833 C85 1 YES

D3 3 3 3 2 26 0 0

STON/O2.

3101282 7.925 Null 3 YES

D4 4 1 4 2 35 1 0 113803 53.1 C123 3 YES

D5 5 3 5 1 35 0 0 373450 8.05 Null 3 NO

D6 6 3 6 1 Null 0 0 330877 84.583 Null 2 NO

D7 7 1 7 1 54 0 0 17463 518.625 E46 3 NO

D8 8 3 8 1 2 3 1 349909 21.075 Null 3 NO

D9 9 3 9 2 27 0 2 347742 111.333 Null 3 YES

D10 10 2 10 2 14 1 0 237736 300.708 Null 1 YES

3.2 Hasil Praproses Data

Data awal berjumlah 891 data, setelah dilakukannya cleaning terdapat 179 baris data yang mengandung nilai Null yang kemudian baris data tersebut dihapus, sehingga data yang tersisa menjadi 712 baris data. Dari data yang sudah di-cleaning terdapat 288 penumpang yang selamat dan 424 penumpang yang tidak selamat. Sampel data dari hasil cleaning dapat dilihat pada Tabel 3. Setelah dilakukannya data cleaning langkah selanjutnya ialah tahapan min-max normalization. Sampel data hasil normalisasi dapat dilihat pada Tabel 4.

Tabel 3. Sampel Data Cleaning

No A1 A2 A4 A5 A6 A7 A11 Status

D1 1 3 1 22 1 0 3 NO

D2 2 1 2 38 1 0 1 YES

D3 3 3 2 26 0 0 3 YES

D4 4 1 2 35 1 0 3 YES

D5 5 3 1 35 0 0 3 NO

D6 6 1 1 54 0 0 3 NO

D7 7 3 1 2 3 1 3 NO

D8 8 3 2 27 0 2 3 YES

D9 9 2 2 14 1 0 1 YES

D10 10 3 2 4 1 1 3 YES

Tabel 4. Sampel Data Normalisasi

(6)

No A1 A2 A4 A5 A6 A7 A11 Status

D1 0.00 1.0 0.1 0.2 0.2 0.0 3 NO

D2 0.00 0.0 0.2 0.4 0.2 0.0 1 YES

D3 0.00 1.0 0.2 0.3 0.0 0.0 3 YES

D4 0.00 0.0 0.2 0.4 0.2 0.0 3 YES

D5 0.00 1.0 0.1 0.4 0.0 0.0 3 NO

D6 0.00 0.0 0.1 0.6 0.0 0.0 3 NO

D7 0.00 1.0 0.1 0.0 0.6 0.1 3 NO

D8 0.00 1.0 0.2 0.3 0.0 0.3 3 YES

D9 0.01 0.5 0.2 0.1 0.2 0.0 1 YES D10 0.01 1.0 0.2 0.0 0.2 0.1 3 YES 3.3 Hasil Dan Pembahasan

Percobaan menunjukkan bahwa algoritma Logistic Regression unggul dengan akurasi 76,4%, diikuti oleh C4.5 dengan 79,3%, dan Random Forest dengan 79,2%. Meskipun akurasi dari masing-masing algoritma cukup tinggi, presisi dan recall yang dicapai bervariasi. Presisi terbaik dicapai oleh Logistic Regression dengan 70,4%, sementara recall terbaik diraih oleh SVM dengan 77,9%. Namun, algoritma K-NN menunjukkan performa yang lebih rendah, dengan presisi 52,7% dan recall 54,2%. Rendahnya nilai presisi dan recall pada beberapa algoritma ini dapat disebabkan oleh distribusi data yang tidak seimbang, di mana terdapat lebih banyak penumpang yang tidak selamat dibandingkan yang selamat. Ketidakseimbangan ini membuat model cenderung mengklasifikasikan penumpang ke kelas mayoritas, sehingga memengaruhi kemampuan untuk mendeteksi penumpang yang selamat secara akurat.

Confusion matrix untuk NBC dapat dilihat pada Tabel 5. Confusion matrix untuk K-NN dapat dilihat pada Tabel 6.

Confusion matrix untuk C4.5 dapat dilihat pada Tabel 7. Confusion matrix untuk Random Forest dapat dilihat pada Tabel 8. Dan Confusion matrix untuk Logistic Regression dapat dilihat pada Tabel 9.

Tabel 5. Confusion Matrix NBC

Kelas asal

True Yes True No

Pred Yes 239 89

Pred No 103 460

Tabel 6. Confusion Matrix K-NN(3)

Kelas asal

Pred Yes 109 175

Pred No 233 374

Tabel 7. Confusion Matrix C4.5 Kelas asal

(7)

Pred Yes 231 73

Pred No 111 476

Tabel 8. Confusion Matrix Random Forest

Kelas asal

Pred Yes 233 68

Pred No 109 481

Tabel 9. Confusion Matrix Logistic Regression

Kelas asal

Pred Yes 241 84

Pred No 101 465

Tabel 10. Confusion Matrix SVM

Kelas asal

Pred Yes 184 52

Pred No 158 497

Tabel 11. Confusion Matrix Neural Network

Kelas asal

Pred Yes 134 48

Pred No 208 501

Untuk K-NN dilakukan 10 kali percobaan dengan berbagai nilai K, yaitu 3, 5, 7, 9,11, 13, 15, 17, 19, dan 21.

Hasil percobaan tersebut dapat dilihat pada Tabel. Akurasi terbaik adalah ketika K=19 dengan nilai akurasi sebesar 59,00%, nilai presisi sebesar 52,50%, dan nilai recall sebesar 59,00%. Namun, penelitian ini cenderung memilih K terbaik adalah K=3. Hal ini dikarenakan nilai akurasi, presisi, dan recall pada K=3 relatif baik dan seimbang dibandingkan dengan nilai K lainnya, yaitu dengan nilai akurasi sebesar 54,20%, nilai presisi sebesar 52,70%, dan nilai recall sebesar 54,20%.

Tabel 10. Akurasi Algoritma K-NN Nilai K Nilai Akurasi

(%)

Nilai Presisi (%)

Nilai Recall (%)

3 54,20% 52,70% 54,20%

5 55,60% 53,20% 55,60%

7 55,30% 51,80% 55,30%

(8)

9 55,20% 50,50% 55,20%

11 55,00% 48,90% 55,00%

13 56,00% 49,50% 56,00%

15 56,80% 49,50% 56,80%

17 57,40% 49,90% 57,40%

19 59,00% 52,50% 59,00%

21 58,60% 51,80% 58,60%

Pohon keputusan yang dihasilkan oleh algoritma C4.5 dapat dilihat pada Gambar 1. Pada pohon keputusan tersebut, atribut yang paling signifikan dalam menentukan kelangsungan hidup penumpang adalah jenis kelamin, status (kelas atau posisi penumpang), dan usia. Dari banyaknya atribut yang ada, hanya tiga atribut utama yang digunakan: jenis kelamin (sex), status (status/kelas), dan usia (age). Ini membantu mengurangi kompleksitas dalam proses klasifikasi dengan tetap mempertahankan informasi penting untuk memprediksi apakah penumpang selamat atau tidak.

Gambar 2. Pohon Keputusan C4.5

3.4 Perbandingan Performa

Berdasarkan hasil percobaan yang dilakukan, penelitian ini memilih model yang dihasilkan oleh algoritma SVM sebagai yang terbaik, meskipun SVM bukan algoritma dengan presisi tertinggi. Hal ini dikarenakan algoritma SVM memiliki nilai recall yang paling baik (77,9%). Artinya, model yang dihasilkan oleh algoritma SVM lebih mampu mengidentifikasi penumpang yang benar-benar selamat (true positive) dibandingkan dengan algoritma lainnya.

Namun demikian, algoritma C4.5 juga menunjukkan performa yang baik, terutama dengan akurasi mencapai 79,3%. Algoritma C4.5 menghasilkan keseimbangan yang cukup baik antara presisi (67,5%) dan recall (75,9%), menjadikannya alternatif yang baik ketika fokusnya adalah mendeteksi penumpang yang selamat sambil mempertahankan akurasi yang memadai.Di sisi lain, algoritma K-NN menunjukkan performa yang

lebih rendah dengan akurasi 54,2%, presisi 52,7%, dan recall 54,2%. K-NN lebih cocok digunakan ketika kebutuhan utama adalah menghindari false positive (kesalahan mengidentifikasi penumpang sebagai selamat).

Grafik perbandingan performa model klasifikasi ini dapat dilihat pada gambar, yang memperlihatkan perbandingan nilai akurasi, presisi, dan recall dari berbagai algoritma.

(9)

Gambar 3. Perbandingan Performa Model Klasifikasi

4 KESIMPULAN

Penelitian ini membandingkan kinerja tujuh algoritma machine learning dalam memprediksi kelangsungan hidup penumpang Titanic. C4.5 menghasilkan akurasi tertinggi sebesar 79,3%, diikuti oleh Random Forest dengan akurasi 79,2%, dan Logistic Regression dengan akurasi 76,4%. Di sisi lain, SVM unggul dalam hal recall dengan nilai 77,9%, menandakan kemampuannya yang lebih baik dalam mendeteksi penumpang yang benar-benar selamat.

Namun, K-Nearest Neighbors (K=3) menunjukkan kinerja terendah dengan akurasi 54,2%, presisi 52,7%, dan recall 54,2%, yang mengindikasikan keterbatasan algoritma ini dalam menangani dataset yang memiliki distribusi kelas tidak seimbang. Hasil penelitian ini juga menunjukkan adanya masalah ketidakseimbangan kelas yang mempengaruhi presisi dan recall, terutama pada Logistic Regression (presisi 70,4%) dan Random Forest (presisi 66,4%). Oleh karena itu, teknik balancing data seperti oversampling atau undersampling sangat disarankan untuk penelitian selanjutnya guna meningkatkan performa model. Selain itu, meskipun SVM memberikan recall tertinggi, algoritma ini lebih cocok diterapkan pada situasi yang memprioritaskan deteksi penumpang yang selamat, sedangkan Random Forest dan C4.5 memberikan kinerja yang seimbang antara akurasi dan presisi.

REFERENCES

[1] A. M. Barhoom, A. J. Khalil, B. S. Abu-Nasser, M. M. Musleh, dan S. S. Abu-Naser, “Predicting Titanic Survivors using Artificial Neural Network,” Int. J. Acad. Eng. Res., vol. 3, no. 9, hal. 8–12, 2019, [Daring].

Tersedia pada: https://www.kaggle.com/biswajee/titanic-dataset

[2] E. Ekinci, N. Acun, dan S. İ. Omurca, “A Comparative Study on Machine Learning Techniques Using Titanic Dataset,” 7th Int. Conf. Adv. Technol. ICAT’18, no. April, hal. 411–416, 2018.

[3] A. Fakhri dan Y. C. Winursito, “Analisis Penumpang Kapal Titanic Menggunakan Titanic Dataset Dengan Bantuan Pemrograman Python,” J. Sains Student Res., vol. 2, no. 1, hal. 537–542, 2024, [Daring]. Tersedia pada: https://ejurnal.kampusakademik.co.id/index.php/jssr

[4] Kalyani Jeslyn Lim et al., “Penggunaan Bahasa Pemrograman Python Untuk Memvisualisasikan Data Peluang Selamat Dari Kecelakaan Titanic,” J. Publ. Tek. Inform., vol. 2, no. 2, hal. 66–79, 2023, doi:

10.55606/jupti.v2i2.1735.

[5] W. Musu, A. Ibrahim, dan Heriadi, “Pengaruh Komposisi Data Training dan Testing terhadap Akurasi Algoritma C4.5Musu, W., Ibrahim, A., & Heriadi. (2021). Pengaruh Komposisi Data Training dan Testing terhadap Akurasi Algoritma C4.5. Prosiding Seminar Ilmiah Sistem Informasi Dan Teknologi Inf,” Pros.

Semin. Ilm. Sist. Inf. Dan Teknol. Inf., vol. X, no. 1, hal. 186–195, 2021.

[6] R. M. Awangga dan N. H. Khonsa’, “Analisis Performa Algoritma Random Forest dan Naive Bayes Multinomial pada Dataset Ulasan Obat dan Ulasan Film,” InComTech J. Telekomun. dan Komput., vol. 12, no. 1, hal. 60, 2022, doi: 10.22441/incomtech.v12i1.14770.

[7] A. Riski, “Analisis Komparasi Algoritma Klasifikasi Data Mining Untuk Prediksi Penderita Penyakit Jantung,” J. Tek. Inform. Kaputama, vol. 3, no. 1, hal. 22–28, 2019, [Daring]. Tersedia pada:

(10)

https://jurnal.kaputama.ac.id/index.php/JTIK/article/view/141/156

[8] A. Purwanto, “Jurnal Teknoinfo,” Tong Sampah Pint. Dengan Perintah Suara Guna Menghilangkan Perilaku Siswa Membuang Sampah Sembarangan Di Sekol., vol. 14, hal. 48–58, 2020, [Daring]. Tersedia pada: https://ejurnal.teknokrat.ac.id/index.php/teknoinfo/article/view/336/329

[9] M. Muharrom, “Analisis Penggunaan Orange Data Mining untuk Prediksi Harga USDT/BIDR Binance,”

Bull. Inf. Technol., vol. 4, no. 2, hal. 178–184, 2023, doi: 10.47065/bit.v4i2.654.

[10] Rayuwati, Husna Gemasih, dan Irma Nizar, “IMPLEMENTASI AlGORITMA NAIVE BAYES UNTUK MEMPREDIKSI TINGKAT PENYEBARAN COVID,” Jural Ris. Rumpun Ilmu Tek., vol. 1, no. 1, hal. 38–

46, 2022, doi: 10.55606/jurritek.v1i1.127.

[11] F. Putra, H. F. Tahiyat, R. M. Ihsan, R. Rahmaddeni, dan L. Efrizoni, “Penerapan Algoritma K-Nearest Neighbor Menggunakan Wrapper Sebagai Preprocessing untuk Penentuan Keterangan Berat Badan Manusia,” MALCOM Indones. J. Mach. Learn. Comput. Sci., vol. 4, no. 1, hal. 273–281, 2024, doi:

10.57152/malcom.v4i1.1085.

[12] I. Junaedi, N. Nuswantari, dan V. Yasin, “Perancangan Dan Implementasi Algoritma C4 . 5 Untuk Data Mining,” J. Inf. Syst. Informatics Comput., vol. 3, no. 1, hal. 29–44, 2019, [Daring]. Tersedia pada:

http://journal.stmikjayakarta.ac.id/index.php/jisicom/article/view/203%0Ahttp://

journal.stmikjayakarta.ac.id/index.php/jisicom/article/download/203/158

[13] G. A. Sandag, “Prediksi Rating Aplikasi App Store Menggunakan Algoritma Random Forest,” CogITo Smart J., vol. 6, no. 2, hal. 167–178, 2020, doi: 10.31154/cogito.v6i2.270.167-178.

[14] D. Y. Utami, E. Nurlelah, dan F. N. Hasan, “Comparison of Neural Network Algorithms, Naive Bayes and Logistic Regression to predict diabetes,” J. Informatics Telecommun. Eng., vol. 5, no. 1, hal. 53–64, 2021, doi: 10.31289/jite.v5i1.5201.

[15] B. Rifai, “Algoritma Neural Network Untuk Prediksi,” Techno Nusa Mandiri, vol. IX, no. 1, hal. 1–9, 2013.

[16] A. R. Isnain, A. I. Sakti, D. Alita, dan N. S. Marga, “Sentimen Analisis Publik Terhadap Kebijakan Lockdown Pemerintah Jakarta Menggunakan Algoritma Svm,” J. Data Min. dan Sist. Inf., vol. 2, no. 1, hal.

31, 2021, doi: 10.33365/jdmsi.v2i1.1021.

[17] Syahril Dwi Prasetyo, Shofa Shofiah Hilabi, dan Fitri Nurapriani, “Analisis Sentimen Relokasi Ibukota Nusantara Menggunakan Algoritma Naïve Bayes dan KNN,” J. KomtekInfo, vol. 10, hal. 1–7, 2023, doi:

10.35134/komtekinfo.v10i1.330.

[18] Y. A. Singgalen, “Penerapan Metode CRISP-DM dalam Klasifikasi Data Ulasan Pengunjung Destinasi Danau Toba Menggunakan Algoritma Naïve Bayes Classifier (NBC) dan Decision Tree (DT),” J. Media Inform. Budidarma, vol. 7, no. 3, hal. 1551, 2023, doi: 10.30865/mib.v7i3.6461.

(11)