TUGAS 1 MATA KULIAH DATA SCIENCE
Tema : Konsep Data Scince, Statistika, Algoritma Klasifikasi dan performance klasifikasi Nama : Ika Kemala Sawati Azzahra
NPM : 24.55.2730
1. Business Analytic, Data Analytic, dan Data Science
Business analytic adalah salah satu teknologi yang digunakan untuk mendapatkan wawasan yang didapat dari menentukan dari data. Karena potensi operasional, taktis, dan strategisnya yang tinggi, maka telah menarik minat banyak akademisi dan praktisi diberbagai industri. Dapat didefinisikan sebagai proses mengembangkan keputusan atau rekomendasi yang dapat ditindaklanjuti berdasarkan pada wawasan dari data historis, serta pemantauan kinerja yang sering memproses bisnis melalui presentasi yang akurat, analisis data multidimensi, dan pembuatan laporan[1].
Contoh :
Perusahaan ritel ingin meningkatkan penjualan produk mereka. Mereka menggunakan business analytics untuk menganalisis data penjualan historis, perilaku pelanggan, dan tren pasar.
• Perusahaan mengumpulkan data penjualan dari berbagai saluran (online dan offline), data demografis pelanggan, dan data promosi.
• Menggunakan alat analisis untuk mengidentifikasi pola penjualan, seperti produk yang paling laku, waktu puncak penjualan, dan segmen pelanggan yang paling menguntungkan.
• Membuat dashboard untuk memvisualisasikan data penjualan dan tren.
• Berdasarkan analisis, perusahaan memutuskan untuk meningkatkan promosi untuk produk yang kurang laku dan menargetkan segmen pelanggan tertentu dengan kampanye pemasaran yang disesuaikan.
Data analytic berfokus pada analisis data yang masih mentah dan mengolahnya melalui berbagai metode dan teknik tertentu sehingga dapat menghasilkan kesimpulan yang dapat dijadikan referensi untuk pengambilan keputusan yang lebih baik dan tepat sasaran. Dalam proses data analytics, ada 4 tahapan yaitu pengumpulan data, pemrosesan data, analisis data dan interpretasi data. Data analytic tidak hanya sekadar mengolah data, tetapi juga mengidentifikasi tren, prediksi masa depan, serta memahami perilaku yang terjadi berdasarkan data yang ada[2].
Contoh :
Perusahaan telkomsel dalam pelayanan pelanggan ingin meningkatkan kepuasan pelanggan dengan menganalisis data interaksi pelanggan.
• Perusahaan mengumpulkan data penjualan dari interaksi pelanggan melalui telepon, email, dan media sosial.
• Menggunakan teknik analisis statistik untuk mengidentifikasi masalah umum yang dihadapi pelanggan, seperti waktu tunggu yang lama atau masalah produk.
Mengelompokkan pelanggan berdasarkan jenis masalah yang mereka hadapi dan tingkat kepuasan mereka.
• Berdasarkan analisis, perusahaan memutuskan untuk meningkatkan proses layanan dengan menerapkan pelatihan staf dan peningkatan sistem manajemen waktu.
Data science melibatkan data dan sains atau ilmu yang dibutuhkan untuk memproses data, jika kita memiliki data, lalu kita memiliki curiousity (rasa ingin tahu) tentang kandungan atau isi data yang bermanfaat, lalu untuk menjawab rasa ingin tahu tersebut kita mempelajari data, melakukan eksplorasi terhadap data itu, memanipulasinya, melakukan berbagai hal untuk menganalisis data tersebut dengan memanfaatkan ilmu dan teknologi tertentu untuk mendapatkan jawaban[3].
Contoh :
Toko Somethinc ingin memahami bagaimana pelanggan mereka merasakan produk terbaru yang diluncurkan melalui analisis sentimen di media sosial. Mereka memutuskan untuk menggunakan teknik data science untuk menganalisis data dari platform media sosial seperti Twitter, Facebook, dan Instagram.
• Perusahaan mengumpulkan data dari berbagai sumber media sosial menggunakan API (Application Programming Interface) atau alat pengumpulan data. Data yang dikumpulkan mencakup postingan dan komentar yang menyebutkan produk.
Retweet dan like yang diterima oleh postingan terkait produk. Metadata seperti tanggal, waktu, dan lokasi.
• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti penghapusan tautan dan emoji yang tidak diperlukan dalam analisis.
• Teks yang bersifat alami (natural language) diproses untuk mempersiapkannya untuk analisis. Seperti memecah teks menjadi kata-kata atau frasa, mengubah kata kebentuk dasarnya dan menghapus kata-kata umum yang tidak memberikan makna.
• Dengan menggunakan teknik machine learning dapat menggunakan model naive bayes, support vector machines (SVM), dan deep learning. Model dilatih menggunakan dataset yang telah dilabeli dengan sentimen positif, negatif, atau netral.
• Model dievaluasi menggunakan metrik akurasi, presisi, recall dan F1-Score.
• Kemudian hasil analisis sentimen divisualisasikan menggunakan grafik dan diagram untuk memberikan wawasan yang lebih jelas. Setelah analisis selesai, toko somethinc dapat mengidentifikasi area yang perlu diperbaiki dalam produk dan menyesuaikan strategi pemasaran dalam meningkatkan produk dan layanan mereka.
2. Data, Informasi dan Pengetahuan
Data didefinisikan sebagai fakta atau apa yang dikatakan sebagai hasil dari suatu observasi terhadap fenomena alam. Sebagai hasil observasi langsung terhadap kejadian atau fakta dari fenomena di alam nyata, data bisa berupa tulisan atau gambar yang dilengkapi dengan nilai tertentu[4].
Informasi bisa dianggap sebagai pesan atau makna yang terkandung dalam sebuah pesan, sebagai kumpulan data yang terstruktur yang kita komunikasikan lewat bahasa
lisan, surat kabar, video, dan lain sebagainya. Mengacu pada segala kejadian di dunia (entitas) yang tak terhingga, yang tak dapat disentuh, atau sesuatu yang abstrak[4].
Pengetahuan adalah model yang digunakan manusia untuk memahami dunia dan yang dapat diubah-ubah oleh informasi yang diterima pikiran manusia. Manusia yang memperoleh pengetahuan akan menjadi lebih bijak (wise) daripada sebelumnya[4].
Contoh :
Daftar mahasiswa baru s2 pjj informatika amikom jogja adalah data. Kemudian, daftar tersebut disampaikan kepada para tutor sebagai bahan absen. Berdasarkan data tersebut, para tutor memberi informasi kepada para mahasiswa bahwa peserta kuliah pjj s2 berjumlah 60 yang terdiri atas 25 siswa berjenis kelamin perempuan dan 35 berjenis kelamin laki-laki. Ini adalah informasi dari para tutor. Selanjutnya, salah seorang mahasiswa mempunyai gambaran pengetahuan bahwa jumlah mahasiswa laki-laki lebih banyak dibanding mahasiswa perempuan. Kemudian, mahasiswa lain mempunyai pengetahuan yang berbeda bahwa peminat s2 pjj informatika sebagian besar adalah mahasiswa laki-laki. Jadi, dari gambaran ini, berdasarkan informasi yang sama, pengetahuan yang diterima seseorang bisa berbeda.
3. Statistika Deskriptif
Statistik deskriptif digunakan untuk menggambarkan dan merangkum data, termasuk pada perhitungan ukuran pusat seperti mean dan median dan untuk ukuran variasi seperti range dan standar deviasi[5].
Contoh :
Misal sebuah sekolah ingin menganalisis hasil ujian akhir semester siswa untuk memahami kinerja akademis mereka. Sekolah telah mengumpulkan data nilai ujian dari 20 siswa dalam mata pelajaran informatika. Berikut adalah nilai ujian yang diperoleh : 90, 78, 99, 88, 76, 95, 89, 84, 73, 90, 82, 91, 75, 80, 77, 87, 93, 94, 81, 79
Menghitung ukuran pusat :
• Mean : Jumlah semua nilai / Banyaknya data = 1.701 / 20 = 85,05
• Median : mengurutkan jumlah nilai = 73, 75, 76, 77, 78, 79, 80, 81, 82, 84, 87, 88, 89, 90, 90, 91, 93, 94, 95, 99
Banyaknya nilai = 20, jumlah rata-rata nilai tengah = (84 + 87) = 171 / 2 = 85,5
• Modus : Nilai yang paling banyak muncul adalah 90 sebanyak 2 kali.
Menghitung ukuran penyebaran :
• Range : Nilai maksimum – Nilai minimum = 99 – 73 = 26
• Standar deviasi : Menghitung selisih setiap nilai dari rata-rata, kemudian mengkuadratkan hasilnya.
(73 - 85,05)2 = (-12.05)2 = 145,20 (75 - 85,05)2 = (-10.05)2 = 101 (76 - 85,05)2 = (-9.05)2 = 81.90 (77 - 85,05)2 = (-8.05)2 = 64.80 (78 - 85,05)2 = (-7.05)2 = 49.70 (79 - 85,05)2 = (-6.05)2 = 36.60
(80 - 85,05)2 = (-5.05)2 = 25.50 (81 - 85,05)2 = (-4.05)2 = 16.40 (82 - 85,05)2 = (-3.05)2 = 9.30 (84 - 85,05)2 = (-1.05)2 = 1.10 (87 - 85,05)2 = (1.95)2 = 3.80 (88 - 85,05)2 = (2.95)2 = 8.70 (89 - 85,05)2 = (3.95)2 = 15.60 (90 - 85,05)2 = (4.95)2 = 24.50 (90 - 85,05)2 = (4.95)2 = 24.50 (91 - 85,05)2 = (5.95)2 = 35.40 (93 - 85,05)2 = (7.95)2 = 63.20 (94 - 85,05)2 = (8.95)2 = 80.10 (95 - 85,05)2 = (9.95)2 = 99 (99 - 85,05)2 = (13.95)2 = 194.60
Kita jumlahkam semua hasil kuadrat tersebut : 145,20 + 101 + 81.90 + 64.80 + 49.70 + 36.60 + 25.50 + 16.40 + 9.30 + 1.10 + 3.80 + 8.70 + 15.60 + 24.50 + 24.50 + 35.40 + 63.20 + 80.10 + 99 + 194.60 = 1.080,9
Selanjutnya kita menghitung varians, yaitu rata-rata selisih kuadrat. Karena kita menggunakan sampel maka kita akan bagi dengan (N – 1) dimana N = 20 – 1 = 19.
Varians : Total / (N – 1) = 1.080,9 / 19 = 56,88
Menghitung standar deviasinya yang merupakan akar kuadrat dari varians.
Standar deviasi : 2�56,88 = 7,54
Maka didapat bahwa standar deviasi data nilai ujian dari 20 siswa dalam mata pelajaran informatika adalah sekitar 7,54. Standar deviasi 7,54 poin dari rata-rata 85,05 nilai ujian siswa menunjukkan semakin kecil nilai standar deviasinya maka semakin dekat nilai siswa ke rata-rata, sebaliknya jika standar deviasi lebih besar maka menunjukkan variasi ynag lebih besar dalam nilai siswa.
Setelah melakukan analisis statistik deskriptif, sekolah menemukan bahwa rata-rata nilai ujian adalah 85,05 dimana menunjukkan bahwa secara keseluruhan, siswa memiliki kinerja yang baik. Median 85,5 menunjukkan bahwa setengah dari siswa memiliki nilai di atas 84.5. Modus 90 menunjukkan bahwa nilai ini adalah yang paling umum di antara siswa. Rentang nilai 26 menunjukkan variasi yang cukup besar dalam kinerja siswa. Standar deviasi 7,54 memberikan informasi lebih lanjut tentang sebaran nilai.
Statistik deskriptif memberikan informasi yang berharga bagi sekolah untuk dapat merencanakan intervensi yang diperlukan.
4. Mean, Modus, Standar Deviasi
Rata-rata hitung atau sering disebut mean merupakan ukuran untuk pemusatan yang digunakan sebagai dasar perbandingan antara dua kelompok ataupun lebih. Mean terbagi menjadi data tunggal dan data berkelompok atau data distribusi frekuensi.
Dimana data tunggal tergolong mudah yakni hanya menjumlahkan seluruh data dan dibagi dengan banyaknya data, sedangkan data distribusi frekuensi harus menghitung
terlebih dahulu titik tengah dari tiap kelas interval kemudian baru menggunakan rata- rata hitung[6].
Contoh :
Misal kita ingin menghitung rata-rata umur mahasiswa s2 pjj informatika amikom.
Didapatkan data dari 10 mahasiswa sebagai berikut : 22 30 34 28 29 25 39 39 25 25
Kita mulai menjumlahkan semua umur mahasiswa yang diperoleh : 296
Diketahui jumlah mahasiswa ada 10. Maka kita bisa langsung menghitung mean nya Mean = Total nilai / Jumlah mahasiswa = 296 / 10 = 29,6
Maka didapatkan bahwa rata-rata umur mahasiswa s2 pjj informatika amikom adalah 29,6. Untuk analisis yang lebih mendalam diperlukan juga ukuran penyebaran lainnya.
Modus merupakan suatu nilai yang sering muncul atau data yang paling banyak frekuensinya, jika dihadapkan dengan nilai yang mempunyai frekuensi kemunculan yang sama dengan yang lain maka modus mudah diperoleh. Modus terbagi antara modus untuk data tunggal dan modus untuk data distribusi frekuensi. Dalam suatu data bisa terjadi beberapa modus dan bisa pula terjadi tanpa adanya modus[6]
Contoh :
Misal kita ingin mengetahui umur mahasiswa s2 pjj informatika amikom yang paling banyak. Didapatkan data dari 10 mahasiswa sebagai berikut :
22 30 34 28 29 25 39 39 25 25
Kita perlu menghitung berapa banyak umur mahasiswa tersebut yang memiliki umur yang sama.
22 = 1, 25 = 3, 28 = 1, 29 = 1, 30 = 1 34 = 1, 39 = 2.
Maka didapatkan bahwa banyak mahasiswa s2 pjj informatika amikom yang memiliki umur yang sama adalah 25 tahun sebanyak 3 orang. Untuk analisis yang lebih mendalam diperlukan juga ukuran penyebaran lainnya.
Standar deviasi disebut juga simpangan baku merupakan suatu nilai dimana ia menunjukkan tingkatan atau derajat dalam variasi kelompok atau ukuran standar penyimpangan reratanya. Simpangan baku terbagi atas simpangan baku data tunggal dan simpangan baku untuk data berkelompok serta variance atau varians yang merupakan kuadrat dari simpangan baku berfungsi untuk mengetahui tingkatan penyebaran atau variasi dalam data[6].
Contoh :
Misal kita ingin menghitung standar deviasi dari umur mahasiswa s2 pjj informatika amikom. Didapatkan data dari 10 mahasiswa sebagai berikut :
22 30 34 28 29 25 39 39 25 25
Kita mulai menjumlahkan semua umur mahasiswa yang diperoleh : 296
Diketahui jumlah mahasiswa ada 10. Maka kita bisa langsung menghitung mean nya Mean = Total nilai / Jumlah mahasiswa = 296 / 10 = 29,6
Maka didapatkan bahwa rata-rata umur mahasiswa s2 pjj informatika amikom adalah 29,6.
Selanjutnya kita menghitung selisih setiap nilai dari rata-rata, kemudian mengkuadratkan hasilnya.
(22 – 29,6)2 = (-7.6)2 = 57,76 (30 – 29,6)2 = (0.4)2 = 0.16 (34 – 29,6)2 = (4.4)2 = 19.36 (28 – 29,6)2 = (-1.6)2 = 2.56 (29 – 29,6)2 = (-0.6)2 = 0.36 (25 – 29,6)2 = (-4.6)2 = 21.16 (39 – 29,6)2 = (9.4)2 = 88.36 (39 – 29,6)2 = (9.4)2 = 88.36 (25 – 29,6)2 = (-4.6)2 = 21.16 (25 – 29,6)2 = (-4.6)2 = 21.16
Kita jumlahkam semua hasil kuadrat tersebut : 57,76 + 0.16 + 19.36 + 2.56 + 0.36 + 21.16 + 88.36 + 88.36 + 21.16 + 21.16 = 143,68
Selanjutnya kita menghitung varians, yaitu rata-rata selisih kuadrat. Karena kita menggunakan sampel maka kita akan bagi dengan (N – 1) dimana N = 10 – 1 = 9.
Varians : Total / (N – 1) = 143,68 / 9 = 15,96
Menghitung standar deviasinya yang merupakan akar kuadrat dari varians.
Standar deviasi : �15,962 = 3,99
Maka didapat bahwa standar deviasi umur mahasiswa s2 pjj informatika amikom adalah sekitar 3,99. Standar deviasi 3,99 poin dari rata-rata 29,6 umur mahasiswa menunjukkan semakin kecil nilai standar deviasinya maka semakin dekat umur mahasiswa ke rata-rata, sebaliknya jika standar deviasi lebih besar maka menunjukkan variasi yang lebih besar dalam umur mahasiswa.
Untuk analisis yang lebih mendalam diperlukan juga ukuran penyebaran lainnya.
5. Perbedaan Data Science dengan Artificial Intelligence
Data science melibatkan data dan sains atau ilmu yang dibutuhkan untuk memproses data, jika kita memiliki data, lalu kita memiliki curiousity (rasa ingin tahu) tentang kandungan atau isi data yang bermanfaat, lalu untuk menjawab rasa ingin tahu tersebut kita mempelajari data, melakukan eksplorasi terhadap data itu, memanipulasinya, melakukan berbagai hal untuk menganalisis data tersebut dengan memanfaatkan ilmu dan teknologi tertentu untuk mendapatkan jawaban[3]. Data Science menyediakan data dan wawasan yang diperlukan untuk mengembangkan model AI.
Kecerdasan Buatan (AI) merujuk pada kemampuan mesin atau sistem komputer untuk meniru atau menunjukkan kecerdasan manusia. Definisi ini melibatkan kemampuan sistem untuk mengumpulkan informasi, memahami konteks, melakukan analisis, membuat keputusan, dan belajar dari pengalaman untuk menghadapi tugas-tugas yang kompleks[7]. AI dapat digunakan untuk meningkatkan analisis dan pengolahan data dalam Data Science.
Contoh :
Toko Somethinc ingin memahami bagaimana pelanggan mereka merasakan produk terbaru yang diluncurkan melalui analisis sentimen di media sosial. Mereka memutuskan untuk menggunakan teknik data science untuk menganalisis data dari platform media sosial seperti Twitter, Facebook, dan Instagram.
• Perusahaan mengumpulkan data dari berbagai sumber media sosial menggunakan API (Application Programming Interface) atau alat pengumpulan data. Data yang dikumpulkan mencakup postingan dan komentar yang menyebutkan produk.
Retweet dan like yang diterima oleh postingan terkait produk. Metadata seperti tanggal, waktu, dan lokasi.
• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti penghapusan tautan dan emoji yang tidak diperlukan dalam analisis.
• Teks yang bersifat alami (natural language) diproses untuk mempersiapkannya untuk analisis. Seperti memecah teks menjadi kata-kata atau frasa, mengubah kata kebentuk dasarnya dan menghapus kata-kata umum yang tidak memberikan makna.
• Dengan menggunakan teknik machine learning dapat menggunakan model naive bayes, support vector machines (SVM), dan deep learning. Model dilatih menggunakan dataset yang telah dilabeli dengan sentimen positif, negatif, atau netral.
• Model dievaluasi menggunakan metrik akurasi, presisi, recall dan F1-Score.
• Kemudian hasil analisis sentimen divisualisasikan menggunakan grafik dan diagram untuk memberikan wawasan yang lebih jelas. Setelah analisis selesai, toko somethinc dapat mengidentifikasi area yang perlu diperbaiki dalam produk dan menyesuaikan strategi pemasaran dalam meningkatkan produk dan layanan mereka.
6. Perbedaaan Data Mining dan Machine Learning
Data mining merupakan salah satu tahapan dalam proses Knowledge Discovery in Database (KDD) yang terdiri dari aplikasi analisis data dan algoritma pencarian ynag menghasilkan suatu pola tertentu dari data. Biasanya digunakan untuk ekstraksi dari informasi penting yang tersembunyi dari basis data yang besar[8]. Data mining lebih berfokus pada eksplorasi dan penemuan pola dalam data.
Contoh :
Toko online Somethinc yang menjual makeup maupun skincare ingin meningkatkan strategi pemasaran mereka dengan melakukan segmentasi pasar berdasarkan perilaku pelanggan. Mereka ingin mengidentifikasi kelompok pelanggan yang memiliki pola pembelian yang serupa, sehingga dapat menyesuaikan penawaran dan promosi toko mereka.
• Toko Somethinc mengumpulkan data mulai dari riwayat pembelian pelanggan seperti produk apa yang dibeli, berapa jumlah dan harganya. Data pelanggan seperti usia, jenis kelamin dan lokasi pembeli. Data interaksi disitus online seperti web/toko online apa yang dikunjungi (Bisa tiktok/tokopedia/shopee dll), waktu yang mereka habiskan dalam mengunjungi toko, dan produk apa yang paling sering dilihat pelanggan.
• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti ada pelanggan yang tidak memiliki informasi lokasi, maka data tersebut akan diisi atau dihapus.
• Pihak Somethinc menggunakan teknik clustering K-Means untuk mengelompokkan pelanggan menjadi beberapa segmen.
Segmen 1 : Pelanggan yang membeli produk makeup dan skincare saat diskon dan lebih sensitif terhadap harga.
Segmen 2 : Pelanggan yang sering membeli skincare dan makeup untuk kegiatan sehari-hari.
Segmen 3 : Pelanggan yang membeli skincare dan makeup setiap keluaran terbaru sebagai koleksi pribadi
• Setelah segmentasi, pihak somethinc menganalisis setiap segmen untuk memahami karakteristik dan preferensi mereka. Misal pihak somethinc menemukan bahwa pelanggan yang membeli setiap diskon cenderung berusia 17-25 tahun dan lebih banyak berbelanja pada event tanggal kembar.
• Berdasarkan hasil analisis, toko somethinc dapat merancang strategi pemasaran yang lebih efektif untuk setiap segmen. Seperti membuat iklan yang menargetkan untuk segmen yang sensitif terhadap harga dengan penawaran khusus, megirimkan email atau notifikasi khusus untuk segmen yang membeli untuk kegiatan sehari-hari dan menawarkan progam atau member untuk segmen yang sering membeli setiap kali mengeluarkan produk terbaru.
• Dengan menggunakan data mining untuk segmentasi pasar, toko somethinc dapat meningkatkan efektivitas pemasaran yang tepat kepada setiap segmen pelanggan, meningkatkan kepuasan pelanggan dengan menawarkan produk yang sesuai dengan mereka dan meningkatkan penjualan dan kepercayaan pelanggan.
Machine Learning merupakan bagian dari ilmu kecerdasan buatan yang menggunakan teknik statistika dalam memproses data untuk menghasilkan informasi. Sistem melakukan pembelajaran dari data training dengan mengenali fitur-fitur yang terdapat dalam data tersebut, selanjutnya sistem akan melakukan pengenalan terhadap data testing yang telah diinputkan[9].Machine learning berfokus pada pengembangan model yang dapat belajar dari data dan membuat prediksi.
Contoh :
Rumah sakit antonio ingin meningkatkan kemampuan diagnosis penyakit jantung dengan memanfaatkan machine learning. Mereka mengumpulkan data medis pasien yang mencakup berbagai informasi.
• Data yang dikumpulkan dari rekam medis pasien adalah data demografis (usia dan jenis kelamin), data medis (tekanan darah, kadar kolesterol dan riwayat penyakit), serta hasil tes laboratorium.
• Data yang telah dikumpulkan dibersihkan untuk menghapus nilai yang hilang.
Seperti, jika ada tekanan darah yang tidak normal maka data tersebut akan diperiksa dan diperbaiki.
• Analisis awal dilakukan untuk memahami hubungan antara fitur dengan penyakit jantung. Visualisasi seperti grafik distribusi dan heaatmap digunakan untuk mengidentifikasi pola.
• Digunakan algoritma random forest yang digunakan untuk mengklasifikasikan pasien berisiko tinggi dan rendah terhdapat penyakit jantung dan algoritma logistik untuk memprodiksi kemungkinan terjadinya pernyakit berdasarkan fitur yang ada dalam membangun model prediksi.
• Model dievaluasi menggunakan metrik akurasi, presisi dan recall.
• Setelah model terbukti efektif, maka rumah sakit antonio dapat mengimplementasikan sistem prediksi dalam proses diagnosis. Haruspula melakukan proses monitoring secara berkala untuk memastikan model tetap akurat seiring dengan perubahan data pasien, sehingga rumah sakit antonio dapat meningkatkan kemampuan diagnosis dan memberika perawatan yang lebih cepat serta baik kepada pasien.
7. Algoritma Klasifikasi
Algoritma klasifikasi adalah salah satu teknik pada bidang machine learning dan data mining yang digunakan untuk mengelompokkan data uji berdasarkan data latih yang sebelumnya sudah dipetakan[10]. Terdapat beberapa algoritma klasifikasi yang umum digunakan, yaitu K-NN, Decision tree, Naive bayes, dll.
8. K-Nearest Neighbour
K-Nearest Neighbour (KNN) merupakan suatu metode algoritma klasifikasi dimana bekerja berdasarkan tingkat kemiripan yang dapat dihitung data pembelajarannya (training and testing) berdasarkan dari jarak (distance) terdekat. K-Nearest Neighbour (KNN) termasuk kedalam kategori algoritma klasifikasi lazy leaner yang dapat menyimpan data latih dan menunggu sampai data uji muncul, sehingga KNN lebih cepat dibandingkan algoritma lainnya[11].
Contoh :
Tempat penampungan perlindungan hewan ingin mengembangkan model untuk mengklasifikasikan jenis ras kucing berdasarkan fitur fisiknya. Mereka mempunyai berapa ras kucing dan menumpulkan datanya.
• Dataset yang digunakan berisi informasi tentang 5 kucing dari berbagai ras. Mereka mendapatkan data fitur sebagai berikut :
Kucing 1 : berat 4kg, tinggi 20cm, bulu panjang, bermata hijau, ras persian Kucing 2 : berat 4.2kg, tinggi 25cm, bulu panjang, bermata biru, ras anggora Kucing 3 : berat 3.9kg, tinggi 24cm, bulu pendek, bermata biru, ras persian Kucing 4 : berat 5kg, tinggi 30cm, bulu panjang, bermata kuning, ras mainecoon Kucing 5 : berat 6kg, tinggi 29cm, bulu pendek, bermata hijau, ras persian
• Dataset dibagi menjadi dua bagian, data pelatihan sebanyak 80% yang digunakan untuk melatih model KNN dan data pengujian sebanyak 20% yang digunakan untuk mengevaluasi kinerja model KNN.
• Menentukan nilai K, mereka memilih k = 5. Untuk setiap titik data dalam data pengujian, jarak kesemua titik dalam data pelatihan dihitung menggunakan metrk jalak euclidean distance. Dari jarak yang dihitung. K tetangga terdekat diambil. Jenis ras kucing ditentukan berdasarkan mayoritas suara dari K tetangga terdekat. 3 dari 5 kucing terdekat adalah persian dan 1 anggora 1 mainecoon, maka kucing tersebut dapat diklasifikasikan sebagai persian.
• Model dievaluasi menggunakan data pengujian. Metrik akurasi, presisi dan recall digunakan untuk mengevaluasi kinerja model.
• Setelah model KNN terbukti efektif, tempat penampungan hewan dapat menggunakannya untuk mengklasifikasikan ras kucing baru berdasarkan fitur yang diukur, serta dapat lebih baik dalam memahami dan melindungi kucing dalam berbagai ras.
9. Algoritma C4.5
Algoritma C4.5 merupakan algoritma decision tree yang berbasis gain ratio dengan menggunakan perhitungan entropy, information gain, split info untuk pemilihan atribut menjadi node. Dalam membentuk pohon keputusan diperlukan tahapan-tahapan seperti mempersiapkan data yang akan di training, menentukan akar pohon dengan menghitung nilai gain tertinggi atau nilai index entropy terendah dari masing-masing atributnya. Jika tidak ada atribut dalam record yang dipartisi lagi atau tidak ada record didalam cabang yang kosong maka proses partisi pohon keputusan akan berhenti[12].
Algoritma ini digunakan untuk melakukan klasifikasi atau segmentasi atau pengelompokkan dan bersifat prediktif, algoritma C4.5 ini mampu menangani atribut kontinu dan diskrit serta penanganan data dengan missing value dengan baik. Struktur pohon keputusan yang dibentuk C4.5 dapat dipangkas untuk memudahkan pemahaman aturan yang lebih cepat dalam memperoleh aturan sehingga klasifikasi menjadi lebih baik[8].
Contoh :
Toko somethinc ingin meningkatkan efektivitas pemasaran mereka dengan mengklasifikasikan pelanggan berdasarkan perilaku belanja dan referensi mereka.
• Toko Somethinc mengumpulkan data mulai dari riwayat pembelian pelanggan seperti usia, jenis kelamin, frekuensi pembelian, rata-rata pengeluaran, preferensi produk dan segmentasi.
• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti ada pelanggan yang tidak memiliki informasi segmentasi, maka data tersebut akan diperiksa dan diperbaiki.
• Algoritma C4.5 digunakan untuk membangun pohon keputusan berdasarkan data pelatihan. Atribut segmentasi memberikan informasi terbaik, maka pohon keputusan akan membagi data berdasarkan nilai VIP, reguler dan baru untuk atribut tersebut.
• Model dievaluasi menggunakan data pengujian. Metrik akurasi, presisi dan recall digunakan untuk mengevaluasi kinerja model.
• Setelah model C4.5 terbukti efektif, toko somethinc dapat menggunakan sistem klasifikasi kedalam pemasaran mereka. Toko dapat meningkatkan strategi
pemasaran yang sesuai dengan setiap segmen dan meningkatkan kepuasan pelanggan dengan menawarkan produk yang sesuai dengan kebutuhan mereka.
10. Naive Bayes
Naïve bayes merupakan algoritma klasifikasi dimana membolehkan masing-masing atributnya untuk berpartisipasi dalam keluaran akhir. Naïve bayes dapat mengelompokkan probabilistik simpel yang menilai gabungan probabilitas dengan menambahkan frekuensi serta campuran nilai dari kumpulan data yang dibagikan[11].
Contoh :
Toko Somethinc, yang menjual produk kecantikan dan perawatan kulit, ingin memahami preferensi pelanggan mereka untuk meningkatkan strategi pemasaran dan penawaran produk. Mereka memutuskan untuk menggunakan algoritma Naive Bayes untuk mengklasifikasikan pelanggan berdasarkan data historis tentang pembelian dan preferensi produk.
• Toko Somethinc mengumpulkan data mulai dari riwayat pembelian pelanggan seperti usia, jenis kelamin, frekuensi pembelian, rata-rata pengeluaran, preferensi produk dan segmentasi.
• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti ada pelanggan yang tidak memiliki informasi segmentasi, maka data tersebut akan diperiksa dan diperbaiki.
• Algoritma Naive Bayes menghitung probabilitas bahwa seorang pelanggan adalah VIP berdasarkan usia, jenis kelamin, frekuensi pembelian, dan preferensi produk.
Model menggunakan Teorema Bayes untuk menghitung probabilitas posterior dari setiap kelas berdasarkan fitur yang diberikan.
• Model dievaluasi menggunakan data pengujian. Metrik akurasi, presisi dan recall digunakan untuk mengevaluasi kinerja model.
• Setelah model Naive Bayes terbukti efektif, Toko Somethinc dapat menggunakannya untuk mengklasifikasikan pelanggan baru berdasarkan data yang mereka masukkan.
Seorang pelanggan baru berusia 20 tahun, perempuan, dengan frekuensi pembelian tinggi dan preferensi produk skincare, model dapat memprediksi bahwa pelanggan tersebut kemungkinan besar adalah VIP.
11. Jaringan Syaraf Tiruan
Jaringan saraf buatan atau artificial neural network (ANN) merupakan metode dalam machine learning yang memiliki layer-layer, layer tersbut dinamakan multilayer preception (MLP). Tiap layer memiliki banyak neuron yang memiliki input yang sama namun bobot yang berbeda[9].
Jaringan saraf tiruan terdiri dari beberapa lapisan (layers) yaitu :
• Input Layer untuk menerima data mentah (misalnya, gambar, teks, atau angka).
• Hidden Layers untuk lapisan tersembunyi yang melakukan perhitungan dengan bobot dan fungsi aktivasi.
• Output Layer untuk menghasilkan prediksi akhir (misalnya, klasifikasi gambar atau teks)[13].
Contoh :
Lembaga pendidikan ingin mengembangkan sistem yang dapat mengenali aksara tulisan tangan jawa atau sunda. Mereka memutuskan untuk menggunakan jaringan saraf tiruan (JST) untuk membangun model klasifikasi yang dapat mengidentifikasi huruf atau aksara berdasarkan gambar yang diambil dari dataset tulisan tangan.
• Dataset yang digunakan berisi ribuan gambar tulisan tangan dari berbagai aksara., untuk aksara Latin, dataset dapat mencakup 26 huruf (A-Z) dengan ribuan contoh untuk setiap huruf. Dataset diambil dari sumber seperti MNIST untuk angka atau dataset lain yang relevan untuk huruf.
• Gambar dinormalisasi dengan membagi nilai piksel (0-255) dengan 255, sehingga nilai berada dalam rentang 0 hingga 1. Gambar yang awalnya berukuran 28 x 28 piksel diubah menjadi vektor satu dimensi 784 piksel jika menggunakan model sederhana, atau tetap dalam bentuk 2D jika menggunakan CNN (Convolutional Neural Network).
• Model jaringan saraf tiruan dibangun dengan beberapa lapisan : Input layer : 784 neuron atau lapisan input 2D untuk CNN.
Hidden layer : Satu atau lebih lapisan tersembunyi dengan 128 neuron dan fungsi aktivasi ReLU (Rectified Linear Unit).
Output layer : 26 neuron (jika mengenali huruf A-Z) dengan fungsi aktivasi softmax untuk menghasilkan probabilitas klasifikasi.
• Model dilatih menggunakan fungsi kerugian categorical cross-entropy untuk mengukur seberapa baik model memprediksi kelas yang benar. Algoritma optimasi seperti Adam digunakan untuk memperbarui bobot model selama pelatihan. Model dilatih selama 10 - 20 epoch dengan batch size 32.
• Model dievaluasi menggunakan data pengujian. Metrik akurasi, presisi dan recall digunakan untuk mengevaluasi kinerja model.
• Setelah model terbukti efektif, lembaga pendidikan dapat mengimplementasikan sistem pengenalan aksara untuk memindai atau mengenali tulisan tangan.
12. Deep Learning
Deep Learning (DL) adalah sub-bidang dari Machine Learning yang menggunakan jaringan saraf tiruan (Artificial Neural Networks) dengan banyak lapisan (deep neural networks) untuk mengekstrak fitur kompleks dari data dalam jumlah yang besar dengan meniru cara kerja otak manusia dalam memproses informasi. Model ini terdiri dari neuron, bobot (weights), dan fungsi aktivasi (activation function) yang memungkinkan sistem untuk belajar dari data[13]. Deep learning cocok untuk data yang tidak teratur seperti teks, suara dan citra, biasa diaplikasikan pada teknik klasifikasi, clustering, segmentasi ataupun recognition[9].
Contoh :
Perusahaan tambang PAMA ingin meningkatkan keamanan dan manajemen pekerja di lokasi tambang dengan mengembangkan sistem pengenalan wajah. Sistem ini bertujuan untuk mengidentifikasi pekerja secara otomatis saat mereka memasuki area tambang
dan memastikan bahwa hanya pekerja yang terdaftar yang dapat mengakses lokasi berbahaya, serta memantau kehadiran dan aktivitas mereka.
• Perusahaan mengumpulkan dataset yang berisi ribuan gambar wajah pekerja tambang. Dataset ini mencakup variasi dalam pencahayaan, sudut pandang, ekspresi wajah, dan penggunaan alat pelindung diri (APD) seperti helm dan masker. Data diambil dari kamera pengawas yang terpasang di pintu masuk tambang.
• Gambar dinormalisasi dengan membagi nilai piksel (0-255) dengan 255, sehingga nilai berada dalam rentang 0 hingga 1. Gambar diubah ukurannya menjadi ukuran 224 x 224 piksel untuk memudahkan pemrosesan. Teknik augmentasi menggunakan rotasi, flipping, dan zooming untuk meningkatkan variasi data dan mencegah overfitting.
• Digunakan model Convolutional Neural Network (CNN). lapisan konvolusi untuk mengekstrak fitur dari gambar wajah. Lapisan max pooling untuk mengurangi dimensi dan menjaga fitur penting. Satu atau lebih lapisan terhubung penuh untuk mengklasifikasikan wajah berdasarkan fitur yang diekstrak. Lapisan output dengan neuron sebanyak jumlah pekerja yang dikenali, menggunakan fungsi aktivasi softmax untuk menghasilkan probabilitas klasifikasi.
• Model dilatih menggunakan fungsi kerugian categorical cross-entropy untuk mengukur seberapa baik model memprediksi kelas yang benar. Penggunaan algoritma optimasi seperti Adam atau SGD (Stochastic Gradient Descent) untuk memperbarui bobot model selama pelatihan. Model dilatih selama 20 – 50 epoch dengan batch size 32.
• Model dievaluasi menggunakan data pengujian. Metrik akurasi, presisi dan recall digunakan untuk mengevaluasi kinerja model.
• Setelah model terbukti efektif, perusahaan PAMA dapat mengimplementasikan sistem pengenala wajah kedalan infrastruktur keamanan tambang untuk mengurangi waktu yang diperlukan dalam memverifikasi identitas pekerja secara manual.
13. Performance Klasifikasi
Performa klasifikasi dapat ditingkatkan dengan cara menambahkan jumlah data, melengkapi data yang tidak lengkap, rekayasa fitur (feature engineering), penyaringan fitur (feature selection), penggunaan berbagai algoritma, penyesuaian algoritma, dan ensemble method. Upaya yang dapat dilakukan untuk meningkatkan performa klasifikasi ada dua, yaitu upaya yang pertama adalah upaya peningkatan kualitas dataset yang dilakukan dengan melakukan penambahan jumlah data dalam dataset, upaya yang kedua adalah dengan melakukan komparasi atau perbandingan terhadap performa klasifikasi dari beberapa algoritma pengklasifikasi. Algoritma pengklasifikasi yang digunakan selama percobaan terdiri dari algoritma Naïve Bayes, Random Forest, dan REPTree[14].
Contoh :
Misal toko somethinc ingin mengembangkan sistem yang dapat secara otomatis mengidentifikasi dan memfilter email spam dari kotak masuk pengguna untuk
meningkatkan produktivitas karyawan dengan mengurangi jumlah email yang tidak diinginkan yang masuk ke dalam kotak masuk mereka.
• Perusahaan mengumpulkan dataset yang berisi email yang telah dilabeli sebagai
"spam" atau "bukan spam". Dataset ini dapat mencakup ribuan email yang diambil dari kotak masuk pengguna sebelumnya.
• Data yang dikumpulkan kemudian dibersihkan untuk menghapus email yang tidak relevan, duplikat, dan konten yang tidak diperlukan, seperti penghapusan karakter khusus, tautan, dan kata-kata umum yang tidak memberikan makna.
• Teks email kemudian diproses untuk dianalisis dengan cara memecah teks menjadi kata-kata atau frasa, mengubah kata ke bentuk dasarnya dan enggunakan teknik seperti Bag of Words atau TF-IDF (Term Frequency-Inverse Document Frequency) untuk mengubah teks menjadi representasi numerik yang dapat digunakan oleh model.
• Menerapkan beberapa algoritma klasifikasi seperti naive bayes, logistic regression, support vector machine (SVM) dan random forest. Kemudian model dilatih menggunakan data pelatihan dan diuji menggunakan data pengujian.
• Model dievaluasi menggunakan metrik akurasi, presisi, recall dan F1-score.
• Setelah model terbukti efektif maka toko somethinc dapat mengimplementasikan sistem deteksi spam dalam aplikasi email mereka dan dapat meningkatkan efisiensi komunikasi dan mengurangi ganguan email spam.
14. Confusion Matrix
Confusion matrix merupakan alat evaluasi yang dapat membantu untuk memahami model dengan melihat detail kesalahan klasifikasi yang dilakukan oleh model. Ini sangat berguna dalam mengidentifikasi pola kesalahan dan meningkatkan performa pada model.
• True Positive (TP) artinya model memprediksi benar untuk kelas positif
• False Positive (FP) artinya model salah memprediksi kelas negatif
• False Negative (FN) artinya model gagal mengenali kelas positif
• True Negative (TN) artinya model memprediksi benar untuk kelas negatif
• Jika FN tinggi maka model kurang sensitif sehingga bisa diperbaiki dengan augmentasi data atau meningkatkan kompleksitas model.
• Jika FP tinggi maka model terlalu sering mengklasifikasikan contoh ke kelas yang salah sehingga isa diperbaiki dengan menyesuaikan threshold prediksi atau melakukan fine tuning model.
• Jika kelas tertentu memiliki kesalahan tinggi maka mungkin bentuknya mirip sehingga bisa diperbaiki dengan menambah data latih atau menggunakan teknik transfer learning[13].
Contoh :
Misalkan kita memiliki dataset yang berisi 100 buah dan kita telah melatih model untuk mengklasifikasikan buah-buah tersebut.
True positive (TP) : 40 apel, False negative (FN) : 5 apel
False positive (FP) : 30 bukan apel, True negative (TN) : 25 bukan apel
Dari hasil analisis model dapat kita hitung sebagai berikut :
• Akurasi : (TP + TN) / Total = (40 + 25) / 100 = 0,65 atau 65%
• Presisi : TP / (TP + FP) = 40 / (40 + 30) = 0,57 atau 57%
• Recall : TP / (TP + FN) = 40 / (40 + 5) = 0,88 atau 88%
• F1-Score : 2 x (Recall x Presisi / Recall + Presisi) = 2 x (0,88 x 0,57 / 0,88 + 0.57) = 1,0032 / 1,45 = 0,69 atau 69%
Sehingga dapat diambil kesimpulan bahwa model memiliki akurasi 65% dimana 40 dari 100 buah diklasifikasikan dengan benar. Namun, ada 5 buah apel yang tidak terdeteksi (False Negative), yang berarti model gagal mengenali beberapa buah apel.
Dan juga ada 30 buah yang bukan apel tetapi salah diklasifikasikan sebagai apel (False Positive)
Jika kita ingin meningkatkan model, kita harus mengurangi jumlah false negative, sehingga lebih banyak buah apel yang akan terdeteksi dengan benar.
15. Akurasi
Accuracy merupakan alat evaluasi model dimana Jika Training dan Validation Accuracy naik bersamaan artinnya model berjalan dengan baik., jika Training Accuracy tinggi tapi Validation Accuracy rendah artinya model Overfitting (model hafal data latih tapi tidak bisa mengenali data baru), jika Training dan Validation Accuracy sama-sama rendah artinya model Underfitting (model tidak cukup belajar dan tidak mengenali pola)[13].
Contoh :
Misalkan kita memiliki model untuk mendeteksi apakah seorang pasien menderita diabetes atau tidak. Ketika kita telah menguji model dengan 100 pasien, kita mendapatkan hasil klasifikasi :
True positive (TP) : 20 pasien menderita diabetes dan terdeteksi oleh model
False negative (FN) : 40 pasien yang tidak menderita diabetes dan tidak terdeteksi False positive (FP) : 20 pasien yang tidak menderita diabetes tetapi terdeteksi oleh model
True negative (TN) : 20 pasien yang menderita diabetes tetepi tidak terdeteksi oleh model
Dari hasil analisis model dapat kita hitung metrik kerja sebagai berikut : Akurasi : (TP + TN) / (TP + TN + FP + FN) = (20 + 20) / 100 = 0,4 atau 40%
Akurasi sebesar 40% menunjukkan bahwa model secara keseluruhan berhasil mengklasifikasikan 40 dari 100 pasien dengan benar.
16. Presisi
Seberapa banyak prediksi positif yang benar dari total prediksi positif[13]
Contoh :
Misalkan kita memiliki model untuk mendeteksi apakah seorang pasien menderita diabetes atau tidak. Ketika kita telah menguji model dengan 100 pasien, kita mendapatkan hasil klasifikasi :
True positive (TP) : 20 pasien menderita diabetes dan terdeteksi oleh model
False negative (FN) : 40 pasien yang tidak menderita diabetes dan tidak terdeteksi
False positive (FP) : 20 pasien yang tidak menderita diabetes tetapi terdeteksi oleh model
True negative (TN) : 20 pasien yang menderita diabetes tetepi tidak terdeteksi oleh model
Dari hasil analisis model dapat kita hitung metrik kerja sebagai berikut : Presisi : TP / (TP + FP) = 20 / (20 + 20) = 0,5 atau 50%
Presisi sebesar 50% menunjukkan bahwa dari semua pasien yang terdeteksi sebagai menderita diabetes, 50% di antaranya benar-benar menderita diabetes. Ini penting untuk menghindari diagnosis palsu yang dapat menyebabkan pasien yang sehat menerima perawatan yang tidak perlu.
17. Recall
Seberapa banyak prediksi positif yang benar dari total data sebenarnya[13].
Contoh :
Misalkan kita memiliki model untuk mendeteksi apakah seorang pasien menderita diabetes atau tidak. Ketika kita telah menguji model dengan 100 pasien, kita mendapatkan hasil klasifikasi :
True positive (TP) : 20 pasien menderita diabetes dan terdeteksi oleh model
False negative (FN) : 40 pasien yang tidak menderita diabetes dan tidak terdeteksi False positive (FP) : 20 pasien yang tidak menderita diabetes tetapi terdeteksi oleh model
True negative (TN) : 20 pasien yang menderita diabetes tetepi tidak terdeteksi oleh model
Dari hasil analisis model dapat kita hitung metrik kerja sebagai berikut : Recall : TP / (TP + FN) = 20 / (20 + 40) = 0,3 atau 30%
Recall sebesar 30% menunjukkan bahwa dari semua pasien yang terdeteksi sebagai menderita diabetes, 30% di antaranya benar-benar menderita diabetes. Ini penting untuk menghindari diagnosis palsu yang dapat menyebabkan pasien yang sehat menerima perawatan yang tidak perlu.
18. F1-Score
Rata-rata harmonik antara precision dan recall[13].
Contoh :
Misalkan kita memiliki model untuk mendeteksi apakah seorang pasien menderita diabetes atau tidak. Ketika kita telah menguji model dengan 100 pasien, kita mendapatkan hasil klasifikasi :
True positive (TP) : 20 pasien menderita diabetes dan terdeteksi oleh model
False negative (FN) : 40 pasien yang tidak menderita diabetes dan tidak terdeteksi False positive (FP) : 20 pasien yang tidak menderita diabetes tetapi terdeteksi oleh model
True negative (TN) : 20 pasien yang menderita diabetes tetepi tidak terdeteksi oleh model
Dari hasil analisis model dapat kita hitung metrik kerja sebagai berikut :
F1-Score : 2 x (Recall x Presisi / Recall + Presisi) = 2 x (0,3 x 0,5 / 0,3 + 0,5) = 0,3 / 0,8 = 0,37 atau 37%
F1-Score sebesar 37% memberikan gambaran yang seimbang antara presisi dan recall, menunjukkan bahwa model memiliki kinerja yang baik dalam mendeteksi diabetes tanpa terlalu banyak menghasilkan hasil positif palsu.
DAFTAR PUSTAKA
[1] M. H. Omar, A. Kha�bi, A. A.-S. Ra�b, J. Tham, and S. A.-A. Al-Adwan, “Determining the Factors Influencing Business Analy�cs Adop�on at Organiza�onal Level: A
Systema�c Literature Review,” Departement of Business Technology, Al-Ahliyya Amman University, 2023.
[2] R. P. Dwi Prasetya, R. Nur Azizah, J. B. Warita Halwa, and etc, “Implementasi Penggunaan Data Analy�csuntuk Mengop�malkan Pengambilan Keputusan Bisnis di Era Digital,” Jurnal Bisnis dan Komunikasi Digital, vol. 2, 2025.
[3] Program Data Science, Pengantar DATA SCIENCE dan APLIKASINYA bagi Pemula. Bandung:
Unpar Press, 2020.
[4] S. A�, Nurdien, Kistanto, and A. Taufik, “Modul Pengantar Konsep Informasi, Data dan Pengetahuan.”
[5] A. A. Jansen Sinlae, KEPUTUSAN BERBASIS DATA Panduan Praktis Data Science Untuk Bisnis, 1st ed. PT. Literasi Nusantara Abadi Grup, 2023.
[6] molli wahyuni, Statistik Deskriptif untuk Penelitian Olah Data Manual dan SPSS Versi 25.
Bintang Pustaka Madani Yogyakarta , 2020.
[7] Mutaqin, M. Arafah, A. Kumala Jaya, and etc, Implementasi Artificial Intelligence (AI) Dalam Kehidupan. Yayasan Kita Menulis, 2023.
[8] D. Jollyta, Prihandoko, A. Hajjah, and M. Siddik, Algoritma Klasifikasi untuk Pemula Solusi Python dan RapidMiner. DEEPUBLISH DIGITAL (Grup Penerbitan CV BUDI UTAMA), 2023.
[9] W. Se�awan, DEEP LEARNING MENGGUNAKAN CONVOLUTIONAL NEURAL NETWORK : TEORI DAN APLIKASI, 1st ed. Media Nusa Crea�ve, 2020.
[10] P. B. Ariya Wibawa and A. P. Wibawa, “Algoritma Klasifikasi pada Pengenalan Pola Citra ,”
Jurnal Inovasi Teknik dan Edukasi Teknologi, vol. 2, 2022.
[11] A. A. Permana, W. S, and etc, Machine Learning, vol. 1. PT GLOBAL EKSEKUTIF TEKNOLOGI, 2022.
[12] A. Rufiyanto, M. Rochcham, and A. Rohman, Penerapan Algoritma C4.5 untuk Memprediksi Kepuasan Mahasiswa Tahun 2020, 1st ed. DEEPUBLISH (Grup Penerbit CV BUDI UTAMA), 2021.
[13] O. Dinata, “MEMBANGUN MODEL DEEP LEARNING : DARI PEMAHAMAN KE IMPLEMENTASI
SEDERHANA,” 2025.
[14] F. Baharuddin and A. Tjahyanto, “Peningkatan Performa Klasifikasi Machine Learning Melalui Perbandingan Metode Machine Learning dan Peningkatan Dataset ,” Jurnal SISFOKOM (Sistem Informasi dan Komputer), vol. 11, 2020.