TUGAS 1 MATA KULIAH DATA SCIENCE Nama : Ika Kemala Sawati Azzahra
NPM : 24.55.2730
Tema : Konsep Data Scince, Statistika, Algoritma Klasifikasi dan performance klasifikasi 1. Business Analytic, Data Analytic, dan Data Science
Business analytic adalah salah satu teknologi yang digunakan untuk mendapatkan wawasan yang didapat dari menentukan data. Karena potensi operasional, taktis, dan strategisnya yang tinggi, maka telah menarik minat banyak akademisi dan praktisi diberbagai industri. Dapat didefinisikan sebagai proses mengembangkan keputusan atau rekomendasi yang dapat ditindaklanjuti berdasarkan pada wawasan dari data historis, serta pemantauan kinerja yang sering memproses bisnis melalui presentasi yang akurat, analisis data multidimensi, dan pembuatan laporan[1].
Contoh :
Perusahaan ritel ingin meningkatkan penjualan produk mereka. Mereka menggunakan business analytics untuk menganalisis data penjualan historis, perilaku pelanggan, dan tren pasar.
• Perusahaan mengumpulkan data penjualan dari berbagai saluran (online dan offline), data demografis pelanggan, dan data promosi.
• Menggunakan alat analisis untuk mengidentifikasi pola penjualan, seperti produk yang paling laku, waktu puncak penjualan, dan segmen pelanggan yang paling menguntungkan.
• Membuat dashboard untuk memvisualisasikan data penjualan dan tren.
• Berdasarkan analisis, perusahaan memutuskan untuk meningkatkan promosi untuk produk yang kurang laku dan menargetkan segmen pelanggan tertentu dengan kampanye pemasaran yang disesuaikan.
Data analytic berfokus pada analisis data yang masih mentah dan mengolahnya melalui berbagai metode dan teknik tertentu sehingga dapat menghasilkan kesimpulan yang dapat dijadikan referensi untuk pengambilan keputusan yang lebih baik dan tepat sasaran. Dalam proses data analytics, ada 4 tahapan yaitu pengumpulan data, pemrosesan data, analisis data dan interpretasi data. Data analytic tidak hanya sekadar mengolah data, tetapi juga mengidentifikasi tren, prediksi masa depan, serta memahami perilaku yang terjadi berdasarkan data yang ada[2].
Contoh :
Perusahaan telkomsel dalam pelayanan pelanggan ingin meningkatkan kepuasan pelanggan dengan menganalisis data interaksi pelanggan.
• Perusahaan mengumpulkan data penjualan dari interaksi pelanggan melalui telepon, email, dan media sosial.
• Menggunakan teknik analisis statistik untuk mengidentifikasi masalah umum yang dihadapi pelanggan, seperti waktu tunggu yang lama atau masalah produk.
Mengelompokkan pelanggan berdasarkan jenis masalah yang mereka hadapi dan tingkat kepuasan mereka.
• Berdasarkan analisis, perusahaan memutuskan untuk meningkatkan proses layanan dengan menerapkan pelatihan staf dan peningkatan sistem manajemen waktu.
Data science melibatkan data dan sains atau ilmu yang dibutuhkan untuk memproses data, jika kita memiliki data, lalu kita memiliki curiousity (rasa ingin tahu) tentang kandungan atau isi data yang bermanfaat, lalu untuk menjawab rasa ingin tahu tersebut kita mempelajari data, melakukan eksplorasi terhadap data itu, memanipulasinya, melakukan berbagai hal untuk menganalisis data tersebut dengan memanfaatkan ilmu dan teknologi tertentu untuk mendapatkan jawaban[3].
Contoh :
Toko Somethinc ingin memahami bagaimana pelanggan mereka merasakan produk terbaru yang diluncurkan melalui analisis sentimen di media sosial. Mereka memutuskan untuk menggunakan teknik data science untuk menganalisis data dari platform media sosial seperti Twitter, Facebook, dan Instagram.
• Perusahaan mengumpulkan data dari berbagai sumber media sosial menggunakan API (Application Programming Interface) atau alat pengumpulan data. Data yang dikumpulkan mencakup postingan dan komentar yang menyebutkan produk.
Retweet dan like yang diterima oleh postingan terkait produk. Metadata seperti tanggal, waktu, dan lokasi.
• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti penghapusan tautan dan emoji yang tidak diperlukan dalam analisis.
• Teks yang bersifat alami (natural language) diproses untuk mempersiapkannya untuk analisis. Seperti memecah teks menjadi kata-kata atau frasa, mengubah kata kebentuk dasarnya dan menghapus kata-kata umum yang tidak memberikan makna.
• Dengan menggunakan teknik machine learning dapat menggunakan model naive bayes, support vector machines (SVM), dan deep learning. Model dilatih menggunakan dataset yang telah dilabeli dengan sentimen positif, negatif, atau netral.
• Model dievaluasi menggunakan metrik akurasi, presisi, recall dan F1-Score.
• Kemudian hasil analisis sentimen divisualisasikan menggunakan grafik dan diagram untuk memberikan wawasan yang lebih jelas. Setelah analisis selesai, toko somethinc dapat mengidentifikasi area yang perlu diperbaiki dalam produk dan menyesuaikan strategi pemasaran dalam meningkatkan produk dan layanan mereka.
2. Data, Informasi dan Pengetahuan
Data didefinisikan sebagai fakta atau apa yang dikatakan sebagai hasil dari suatu observasi terhadap fenomena alam. Sebagai hasil observasi langsung terhadap kejadian atau fakta dari fenomena di alam nyata, data bisa berupa tulisan atau gambar yang dilengkapi dengan nilai tertentu[4].
Informasi bisa dianggap sebagai pesan atau makna yang terkandung dalam sebuah pesan, sebagai kumpulan data yang terstruktur yang kita komunikasikan lewat bahasa lisan, surat kabar, video, dan lain sebagainya. Mengacu pada segala kejadian di dunia (entitas) yang tak terhingga, yang tak dapat disentuh, atau sesuatu yang abstrak[4].
Pengetahuan adalah model yang digunakan manusia untuk memahami dunia dan yang dapat diubah-ubah oleh informasi yang diterima pikiran manusia. Manusia yang memperoleh pengetahuan akan menjadi lebih bijak (wise) daripada sebelumnya[4].
Contoh :
Daftar mahasiswa baru s2 pjj informatika amikom jogja adalah data. Kemudian, daftar tersebut disampaikan kepada para tutor sebagai bahan absen. Berdasarkan data tersebut, para tutor memberi informasi kepada para mahasiswa bahwa peserta kuliah pjj s2 berjumlah 60 orang yang terdiri atas 25 mahasiswa berjenis kelamin perempuan dan 35 berjenis kelamin laki-laki. Ini adalah informasi dari para tutor. Selanjutnya, salah seorang mahasiswa mempunyai gambaran pengetahuan bahwa jumlah mahasiswa laki- laki lebih banyak dibanding mahasiswa perempuan. Kemudian, mahasiswa lain mempunyai pengetahuan yang berbeda bahwa peminat s2 pjj informatika sebagian besar adalah mahasiswa laki-laki. Jadi, berdasarkan informasi yang sama, pengetahuan yang diterima seseorang bisa saja berbeda.
3. Statistika Deskriptif
Statistik deskriptif digunakan untuk menggambarkan dan merangkum data, termasuk pada perhitungan ukuran pusat seperti mean dan median dan untuk ukuran variasi seperti range dan standar deviasi[5].
Contoh :
Misal sebuah sekolah ingin menganalisis hasil ujian akhir semester siswa untuk memahami kinerja akademis mereka. Sekolah telah mengumpulkan data nilai ujian dari 20 siswa dalam mata pelajaran informatika. Berikut adalah nilai ujian yang diperoleh : 90, 78, 99, 88, 76, 95, 89, 84, 73, 90, 82, 91, 75, 80, 77, 87, 93, 94, 81, 79
Menghitung ukuran pusat :
• Mean : Jumlah semua nilai / Banyaknya data = 1.701 / 20 = 85,05
• Median : mengurutkan jumlah nilai = 73, 75, 76, 77, 78, 79, 80, 81, 82, 84, 87, 88, 89, 90, 90, 91, 93, 94, 95, 99
Banyaknya nilai = 20, jumlah rata-rata nilai tengah = (84 + 87) = 171 / 2 = 85,5
• Modus : Nilai yang paling banyak muncul adalah 90 sebanyak 2 kali.
Menghitung ukuran penyebaran :
• Range : Nilai maksimum – Nilai minimum = 99 – 73 = 26
• Standar deviasi : Menghitung selisih setiap nilai dari rata-rata, kemudian mengkuadratkan hasilnya.
(73 - 85,05)2 = (-12.05)2 = 145,20 (75 - 85,05)2 = (-10.05)2 = 101 (76 - 85,05)2 = (-9.05)2 = 81.90 (77 - 85,05)2 = (-8.05)2 = 64.80
(78 - 85,05)2 = (-7.05)2 = 49.70 (79 - 85,05)2 = (-6.05)2 = 36.60 (80 - 85,05)2 = (-5.05)2 = 25.50 (81 - 85,05)2 = (-4.05)2 = 16.40 (82 - 85,05)2 = (-3.05)2 = 9.30 (84 - 85,05)2 = (-1.05)2 = 1.10 (87 - 85,05)2 = (1.95)2 = 3.80 (88 - 85,05)2 = (2.95)2 = 8.70 (89 - 85,05)2 = (3.95)2 = 15.60 (90 - 85,05)2 = (4.95)2 = 24.50 (90 - 85,05)2 = (4.95)2 = 24.50 (91 - 85,05)2 = (5.95)2 = 35.40 (93 - 85,05)2 = (7.95)2 = 63.20 (94 - 85,05)2 = (8.95)2 = 80.10 (95 - 85,05)2 = (9.95)2 = 99 (99 - 85,05)2 = (13.95)2 = 194.60
Kita jumlahkam semua hasil kuadrat tersebut : 145,20 + 101 + 81.90 + 64.80 + 49.70 + 36.60 + 25.50 + 16.40 + 9.30 + 1.10 + 3.80 + 8.70 + 15.60 + 24.50 + 24.50 + 35.40 + 63.20 + 80.10 + 99 + 194.60 = 1.080,9
Selanjutnya kita menghitung varians, yaitu rata-rata selisih kuadrat. Karena kita menggunakan sampel maka kita akan bagi dengan (N – 1) dimana N = 20 – 1 = 19.
Varians : Total / (N – 1) = 1.080,9 / 19 = 56,88
Menghitung standar deviasinya yang merupakan akar kuadrat dari varians.
Standar deviasi : 2�56,88 = 7,54
Maka didapat bahwa standar deviasi data nilai ujian dari 20 siswa dalam mata pelajaran informatika adalah sekitar 7,54. Standar deviasi 7,54 poin dari rata-rata 85,05 nilai ujian siswa menunjukkan semakin kecil nilai standar deviasinya maka semakin dekat nilai siswa ke rata-rata, sebaliknya jika standar deviasi lebih besar maka menunjukkan variasi ynag lebih besar dalam nilai siswa.
Setelah melakukan analisis statistik deskriptif, sekolah menemukan bahwa rata-rata nilai ujian adalah 85,05 dimana menunjukkan bahwa secara keseluruhan, siswa memiliki kinerja yang baik. Median 85,5 menunjukkan bahwa setengah dari siswa memiliki nilai di atas 84.5. Modus 90 menunjukkan bahwa nilai ini adalah yang paling umum di antara siswa. Rentang nilai 26 menunjukkan variasi yang cukup besar dalam kinerja siswa. Standar deviasi 7,54 memberikan informasi lebih lanjut tentang sebaran nilai.
Statistik deskriptif memberikan informasi yang berharga bagi sekolah untuk dapat merencanakan intervensi yang diperlukan.
4. Mean, Modus, Standar Deviasi
Rata-rata hitung atau sering disebut mean merupakan ukuran untuk pemusatan yang digunakan sebagai dasar perbandingan antara dua kelompok ataupun lebih. Mean terbagi menjadi data tunggal dan data berkelompok atau data distribusi frekuensi.
Dimana data tunggal tergolong mudah yakni hanya menjumlahkan seluruh data dan dibagi dengan banyaknya data, sedangkan data distribusi frekuensi harus menghitung terlebih dahulu titik tengah dari tiap kelas interval kemudian baru menggunakan rata- rata hitung[6].
Contoh :
Misal kita ingin menghitung rata-rata umur mahasiswa s2 pjj informatika amikom.
Didapatkan data dari 10 mahasiswa sebagai berikut : 22 30 34 28 29 25 39 39 25 25
Kita mulai menjumlahkan semua umur mahasiswa yang diperoleh : 296
Diketahui jumlah mahasiswa ada 10. Maka kita bisa langsung menghitung mean nya Mean = Total nilai / Jumlah mahasiswa = 296 / 10 = 29,6
Maka didapatkan bahwa rata-rata umur mahasiswa s2 pjj informatika amikom adalah 29,6. Untuk analisis yang lebih mendalam diperlukan juga ukuran penyebaran lainnya.
Modus merupakan suatu nilai yang sering muncul atau data yang paling banyak frekuensinya, jika dihadapkan dengan nilai yang mempunyai frekuensi kemunculan yang sama dengan yang lain maka modus mudah diperoleh. Modus terbagi antara modus untuk data tunggal dan modus untuk data distribusi frekuensi. Dalam suatu data bisa terjadi beberapa modus dan bisa pula terjadi tanpa adanya modus[6]
Contoh :
Misal kita ingin mengetahui umur mahasiswa s2 pjj informatika amikom yang paling banyak. Didapatkan data dari 10 mahasiswa sebagai berikut :
22 30 34 28 29 25 39 39 25 25
Kita perlu menghitung berapa banyak umur mahasiswa tersebut yang memiliki umur yang sama.
22 = 1, 25 = 3, 28 = 1, 29 = 1, 30 = 1 34 = 1, 39 = 2.
Maka didapatkan bahwa banyak mahasiswa s2 pjj informatika amikom yang memiliki umur yang sama adalah 25 tahun sebanyak 3 orang. Untuk analisis yang lebih mendalam diperlukan juga ukuran penyebaran lainnya.
Standar deviasi disebut juga simpangan baku merupakan suatu nilai dimana ia menunjukkan tingkatan atau derajat dalam variasi kelompok atau ukuran standar penyimpangan reratanya. Simpangan baku terbagi atas simpangan baku data tunggal dan simpangan baku untuk data berkelompok serta variance atau varians yang merupakan kuadrat dari simpangan baku berfungsi untuk mengetahui tingkatan penyebaran atau variasi dalam data[6].
Contoh :
Misal kita ingin menghitung standar deviasi dari umur mahasiswa s2 pjj informatika amikom. Didapatkan data dari 10 mahasiswa sebagai berikut :
22 30 34 28 29 25 39 39 25 25
Kita mulai menjumlahkan semua umur mahasiswa yang diperoleh : 296
Diketahui jumlah mahasiswa ada 10. Maka kita bisa langsung menghitung mean nya Mean = Total nilai / Jumlah mahasiswa = 296 / 10 = 29,6
Maka didapatkan bahwa rata-rata umur mahasiswa s2 pjj informatika amikom adalah 29,6.
Selanjutnya kita menghitung selisih setiap nilai dari rata-rata, kemudian mengkuadratkan hasilnya.
(22 – 29,6)2 = (-7.6)2 = 57,76 (30 – 29,6)2 = (0.4)2 = 0.16 (34 – 29,6)2 = (4.4)2 = 19.36 (28 – 29,6)2 = (-1.6)2 = 2.56 (29 – 29,6)2 = (-0.6)2 = 0.36 (25 – 29,6)2 = (-4.6)2 = 21.16 (39 – 29,6)2 = (9.4)2 = 88.36 (39 – 29,6)2 = (9.4)2 = 88.36 (25 – 29,6)2 = (-4.6)2 = 21.16 (25 – 29,6)2 = (-4.6)2 = 21.16
Kita jumlahkam semua hasil kuadrat tersebut : 57,76 + 0.16 + 19.36 + 2.56 + 0.36 + 21.16 + 88.36 + 88.36 + 21.16 + 21.16 = 143,68
Selanjutnya kita menghitung varians, yaitu rata-rata selisih kuadrat. Karena kita menggunakan sampel maka kita akan bagi dengan (N – 1) dimana N = 10 – 1 = 9.
Varians : Total / (N – 1) = 143,68 / 9 = 15,96
Menghitung standar deviasinya yang merupakan akar kuadrat dari varians.
Standar deviasi : �15,962 = 3,99
Maka didapat bahwa standar deviasi umur mahasiswa s2 pjj informatika amikom adalah sekitar 3,99. Standar deviasi 3,99 poin dari rata-rata 29,6 umur mahasiswa menunjukkan semakin kecil nilai standar deviasinya maka semakin dekat umur mahasiswa ke rata-rata, sebaliknya jika standar deviasi lebih besar maka menunjukkan variasi yang lebih besar dalam umur mahasiswa.
Untuk analisis yang lebih mendalam diperlukan juga ukuran penyebaran lainnya.
5. Perbedaan Data Science dengan Artificial Intelligence
Data science melibatkan data dan sains atau ilmu yang dibutuhkan untuk memproses data, jika kita memiliki data, lalu kita memiliki curiousity (rasa ingin tahu) tentang kandungan atau isi data yang bermanfaat, lalu untuk menjawab rasa ingin tahu tersebut kita mempelajari data, melakukan eksplorasi terhadap data itu, memanipulasinya, melakukan berbagai hal untuk menganalisis data tersebut dengan memanfaatkan ilmu dan teknologi tertentu untuk mendapatkan jawaban[3]. Data Science menyediakan data dan wawasan yang diperlukan untuk mengembangkan model AI.
Kecerdasan Buatan (AI) merujuk pada kemampuan mesin atau sistem komputer untuk meniru atau menunjukkan kecerdasan manusia. Definisi ini melibatkan kemampuan sistem untuk mengumpulkan informasi, memahami konteks, melakukan analisis, membuat keputusan, dan belajar dari pengalaman untuk menghadapi tugas-tugas yang kompleks[7]. AI dapat digunakan untuk meningkatkan analisis dan pengolahan data dalam Data Science.
Contoh :
Toko Somethinc ingin memahami bagaimana pelanggan mereka merasakan produk terbaru yang diluncurkan melalui analisis sentimen di media sosial. Mereka memutuskan untuk menggunakan teknik data science untuk menganalisis data dari platform media sosial seperti Twitter, Facebook, dan Instagram.
• Perusahaan mengumpulkan data dari berbagai sumber media sosial menggunakan API (Application Programming Interface) atau alat pengumpulan data. Data yang dikumpulkan mencakup postingan dan komentar yang menyebutkan produk.
Retweet dan like yang diterima oleh postingan terkait produk. Metadata seperti tanggal, waktu, dan lokasi.
• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti penghapusan tautan dan emoji yang tidak diperlukan dalam analisis.
• Teks yang bersifat alami (natural language) diproses untuk mempersiapkannya untuk analisis. Seperti memecah teks menjadi kata-kata atau frasa, mengubah kata kebentuk dasarnya dan menghapus kata-kata umum yang tidak memberikan makna.
• Dengan menggunakan teknik machine learning dapat menggunakan model naive bayes, support vector machines (SVM), dan deep learning. Model dilatih menggunakan dataset yang telah dilabeli dengan sentimen positif, negatif, atau netral.
• Model dievaluasi menggunakan metrik akurasi, presisi, recall dan F1-Score.
• Kemudian hasil analisis sentimen divisualisasikan menggunakan grafik dan diagram untuk memberikan wawasan yang lebih jelas. Setelah analisis selesai, toko somethinc dapat mengidentifikasi area yang perlu diperbaiki dalam produk dan menyesuaikan strategi pemasaran dalam meningkatkan produk dan layanan mereka.
6. Perbedaaan Data Mining dan Machine Learning
Data mining merupakan salah satu tahapan dalam proses Knowledge Discovery in Database (KDD) yang terdiri dari aplikasi analisis data dan algoritma pencarian ynag menghasilkan suatu pola tertentu dari data. Biasanya digunakan untuk ekstraksi dari informasi penting yang tersembunyi dari basis data yang besar[8]. Data mining lebih berfokus pada eksplorasi dan penemuan pola dalam data.
Contoh :
Toko online Somethinc yang menjual makeup maupun skincare ingin meningkatkan strategi pemasaran mereka dengan melakukan segmentasi pasar berdasarkan perilaku pelanggan. Mereka ingin mengidentifikasi kelompok pelanggan yang memiliki pola pembelian yang serupa, sehingga dapat menyesuaikan penawaran dan promosi toko mereka.
• Toko Somethinc mengumpulkan data mulai dari riwayat pembelian pelanggan seperti produk apa yang dibeli, berapa jumlah dan harganya. Data pelanggan seperti usia, jenis kelamin dan lokasi pembeli. Data interaksi disitus online seperti web/toko online apa yang dikunjungi (Bisa tiktok/tokopedia/shopee dll), waktu yang mereka
habiskan dalam mengunjungi toko, dan produk apa yang paling sering dilihat pelanggan.
• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti ada pelanggan yang tidak memiliki informasi lokasi, maka data tersebut akan diisi atau dihapus.
• Pihak Somethinc menggunakan teknik clustering K-Means untuk mengelompokkan pelanggan menjadi beberapa segmen.
Segmen 1 : Pelanggan yang membeli produk makeup dan skincare saat diskon dan lebih sensitif terhadap harga.
Segmen 2 : Pelanggan yang sering membeli skincare dan makeup untuk kegiatan sehari-hari.
Segmen 3 : Pelanggan yang membeli skincare dan makeup setiap keluaran terbaru sebagai koleksi pribadi
• Setelah segmentasi, pihak somethinc menganalisis setiap segmen untuk memahami karakteristik dan preferensi mereka. Misal pihak somethinc menemukan bahwa pelanggan yang membeli setiap diskon cenderung berusia 17-25 tahun dan lebih banyak berbelanja pada event tanggal kembar.
• Berdasarkan hasil analisis, toko somethinc dapat merancang strategi pemasaran yang lebih efektif untuk setiap segmen. Seperti membuat iklan yang menargetkan untuk segmen yang sensitif terhadap harga dengan penawaran khusus, megirimkan email atau notifikasi khusus untuk segmen yang membeli untuk kegiatan sehari-hari dan menawarkan progam atau member untuk segmen yang sering membeli setiap kali mengeluarkan produk terbaru.
• Dengan menggunakan data mining untuk segmentasi pasar, toko somethinc dapat meningkatkan efektivitas pemasaran yang tepat kepada setiap segmen pelanggan, meningkatkan kepuasan pelanggan dengan menawarkan produk yang sesuai dengan mereka dan meningkatkan penjualan dan kepercayaan pelanggan.
Machine Learning merupakan bagian dari ilmu kecerdasan buatan yang menggunakan teknik statistika dalam memproses data untuk menghasilkan informasi. Sistem melakukan pembelajaran dari data training dengan mengenali fitur-fitur yang terdapat dalam data tersebut, selanjutnya sistem akan melakukan pengenalan terhadap data testing yang telah diinputkan[9].Machine learning berfokus pada pengembangan model yang dapat belajar dari data dan membuat prediksi.
Contoh :
Rumah sakit antonio ingin meningkatkan kemampuan diagnosis penyakit jantung dengan memanfaatkan machine learning. Mereka mengumpulkan data medis pasien yang mencakup berbagai informasi.
• Data yang dikumpulkan dari rekam medis pasien adalah data demografis (usia dan jenis kelamin), data medis (tekanan darah, kadar kolesterol dan riwayat penyakit), serta hasil tes laboratorium.
• Data yang telah dikumpulkan dibersihkan untuk menghapus nilai yang hilang.
Seperti, jika ada tekanan darah yang tidak normal maka data tersebut akan diperiksa dan diperbaiki.
• Analisis awal dilakukan untuk memahami hubungan antara fitur dengan penyakit jantung. Visualisasi seperti grafik distribusi dan heaatmap digunakan untuk mengidentifikasi pola.
• Digunakan algoritma random forest yang digunakan untuk mengklasifikasikan pasien berisiko tinggi dan rendah terhdapat penyakit jantung dan algoritma logistik untuk memprodiksi kemungkinan terjadinya pernyakit berdasarkan fitur yang ada dalam membangun model prediksi.
• Model dievaluasi menggunakan metrik akurasi, presisi dan recall.
• Setelah model terbukti efektif, maka rumah sakit antonio dapat mengimplementasikan sistem prediksi dalam proses diagnosis. Haruspula melakukan proses monitoring secara berkala untuk memastikan model tetap akurat seiring dengan perubahan data pasien, sehingga rumah sakit antonio dapat meningkatkan kemampuan diagnosis dan memberika perawatan yang lebih cepat serta baik kepada pasien.
7. Algoritma Klasifikasi
Algoritma klasifikasi adalah salah satu teknik pada bidang machine learning dan data mining yang digunakan untuk mengelompokkan data uji berdasarkan data latih yang sebelumnya sudah dipetakan[10]. Terdapat beberapa algoritma klasifikasi yang umum digunakan, yaitu K-NN, Decision tree, Naive bayes, dll.
8. K-Nearest Neighbour
K-Nearest Neighbour (KNN) merupakan suatu metode algoritma klasifikasi dimana bekerja berdasarkan tingkat kemiripan yang dapat dihitung data pembelajarannya (training and testing) berdasarkan dari jarak (distance) terdekat. K-Nearest Neighbour (KNN) termasuk kedalam kategori algoritma klasifikasi lazy leaner yang dapat menyimpan data latih dan menunggu sampai data uji muncul, sehingga KNN lebih cepat dibandingkan algoritma lainnya[11].
Contoh :
Tempat penampungan perlindungan hewan ingin mengembangkan model untuk mengklasifikasikan jenis ras kucing berdasarkan fitur fisiknya. Mereka mempunyai berapa ras kucing dan menumpulkan datanya.
• Dataset yang digunakan berisi informasi tentang 5 kucing dari berbagai ras. Mereka mendapatkan data fitur sebagai berikut :
Kucing 1 : berat 4kg, tinggi 20cm, bulu panjang, bermata hijau, ras persian Kucing 2 : berat 4.2kg, tinggi 25cm, bulu panjang, bermata biru, ras anggora Kucing 3 : berat 3.9kg, tinggi 24cm, bulu pendek, bermata biru, ras persian Kucing 4 : berat 5kg, tinggi 30cm, bulu panjang, bermata kuning, ras mainecoon Kucing 5 : berat 6kg, tinggi 29cm, bulu pendek, bermata hijau, ras persian
• Dataset dibagi menjadi dua bagian, data pelatihan sebanyak 80% yang digunakan untuk melatih model KNN dan data pengujian sebanyak 20% yang digunakan untuk mengevaluasi kinerja model KNN.
• Menentukan nilai K, mereka memilih k = 5. Untuk setiap titik data dalam data pengujian, jarak kesemua titik dalam data pelatihan dihitung menggunakan metrk jalak euclidean distance. Dari jarak yang dihitung. K tetangga terdekat diambil. Jenis ras kucing ditentukan berdasarkan mayoritas suara dari K tetangga terdekat. 3 dari 5 kucing terdekat adalah persian dan 1 anggora 1 mainecoon, maka kucing tersebut dapat diklasifikasikan sebagai persian.
• Model dievaluasi menggunakan data pengujian. Metrik akurasi, presisi dan recall digunakan untuk mengevaluasi kinerja model.
• Setelah model KNN terbukti efektif, tempat penampungan hewan dapat menggunakannya untuk mengklasifikasikan ras kucing baru berdasarkan fitur yang diukur, serta dapat lebih baik dalam memahami dan melindungi kucing dalam berbagai ras.
9. Algoritma C4.5
Algoritma C4.5 merupakan algoritma decision tree yang berbasis gain ratio dengan menggunakan perhitungan entropy, information gain, split info untuk pemilihan atribut menjadi node. Dalam membentuk pohon keputusan diperlukan tahapan-tahapan seperti mempersiapkan data yang akan di training, menentukan akar pohon dengan menghitung nilai gain tertinggi atau nilai index entropy terendah dari masing-masing atributnya. Jika tidak ada atribut dalam record yang dipartisi lagi atau tidak ada record didalam cabang yang kosong maka proses partisi pohon keputusan akan berhenti[12].
Algoritma ini digunakan untuk melakukan klasifikasi atau segmentasi atau pengelompokkan dan bersifat prediktif, algoritma C4.5 ini mampu menangani atribut kontinu dan diskrit serta penanganan data dengan missing value dengan baik. Struktur pohon keputusan yang dibentuk C4.5 dapat dipangkas untuk memudahkan pemahaman aturan yang lebih cepat dalam memperoleh aturan sehingga klasifikasi menjadi lebih baik[8].
Contoh :
Toko somethinc ingin meningkatkan efektivitas pemasaran mereka dengan mengklasifikasikan pelanggan berdasarkan perilaku belanja dan referensi mereka.
• Toko Somethinc mengumpulkan data mulai dari riwayat pembelian pelanggan seperti usia, jenis kelamin, frekuensi pembelian, rata-rata pengeluaran, preferensi produk dan segmentasi.
• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti ada pelanggan yang tidak memiliki informasi segmentasi, maka data tersebut akan diperiksa dan diperbaiki.
• Algoritma C4.5 digunakan untuk membangun pohon keputusan berdasarkan data pelatihan. Atribut segmentasi memberikan informasi terbaik, maka pohon keputusan akan membagi data berdasarkan nilai VIP, reguler dan baru untuk atribut tersebut.
• Model dievaluasi menggunakan data pengujian. Metrik akurasi, presisi dan recall digunakan untuk mengevaluasi kinerja model.
• Setelah model C4.5 terbukti efektif, toko somethinc dapat menggunakan sistem klasifikasi kedalam pemasaran mereka. Toko dapat meningkatkan strategi pemasaran yang sesuai dengan setiap segmen dan meningkatkan kepuasan pelanggan dengan menawarkan produk yang sesuai dengan kebutuhan mereka.
10. Naive Bayes
Naïve bayes merupakan algoritma klasifikasi dimana membolehkan masing-masing atributnya untuk berpartisipasi dalam keluaran akhir. Naïve bayes dapat mengelompokkan probabilistik simpel yang menilai gabungan probabilitas dengan menambahkan frekuensi serta campuran nilai dari kumpulan data yang dibagikan[11].
Contoh :
Toko Somethinc, yang menjual produk kecantikan dan perawatan kulit, ingin memahami preferensi pelanggan mereka untuk meningkatkan strategi pemasaran dan penawaran produk. Mereka memutuskan untuk menggunakan algoritma Naive Bayes untuk mengklasifikasikan pelanggan berdasarkan data historis tentang pembelian dan preferensi produk.
• Toko Somethinc mengumpulkan data mulai dari riwayat pembelian pelanggan seperti usia, jenis kelamin, frekuensi pembelian, rata-rata pengeluaran, preferensi produk dan segmentasi.
• Data yang telah dikumpulkan kemudian dibersihkan untuk menghapus duplikasi, kesalahan atau nilai yang hilang. Seperti ada pelanggan yang tidak memiliki informasi segmentasi, maka data tersebut akan diperiksa dan diperbaiki.
• Algoritma Naive Bayes menghitung probabilitas bahwa seorang pelanggan adalah VIP berdasarkan usia, jenis kelamin, frekuensi pembelian, dan preferensi produk.
Model menggunakan Teorema Bayes untuk menghitung probabilitas posterior dari setiap kelas berdasarkan fitur yang diberikan.
• Model dievaluasi menggunakan data pengujian. Metrik akurasi, presisi dan recall digunakan untuk mengevaluasi kinerja model.
• Setelah model Naive Bayes terbukti efektif, Toko Somethinc dapat menggunakannya untuk mengklasifikasikan pelanggan baru berdasarkan data yang mereka masukkan.
Seorang pelanggan baru berusia 20 tahun, perempuan, dengan frekuensi pembelian tinggi dan preferensi produk skincare, model dapat memprediksi bahwa pelanggan tersebut kemungkinan besar adalah VIP.
11. Jaringan Syaraf Tiruan
Jaringan saraf buatan atau artificial neural network (ANN) merupakan metode dalam machine learning yang memiliki layer-layer, layer tersbut dinamakan multilayer preception (MLP). Tiap layer memiliki banyak neuron yang memiliki input yang sama namun bobot yang berbeda[9].
Jaringan saraf tiruan terdiri dari beberapa lapisan (layers) yaitu :
• Input Layer untuk menerima data mentah (misalnya, gambar, teks, atau angka).
• Hidden Layers untuk lapisan tersembunyi yang melakukan perhitungan dengan bobot dan fungsi aktivasi.
• Output Layer untuk menghasilkan prediksi akhir (misalnya, klasifikasi gambar atau teks)[13].
Contoh :
Lembaga pendidikan ingin mengembangkan sistem yang dapat mengenali aksara tulisan tangan jawa atau sunda. Mereka memutuskan untuk menggunakan jaringan saraf tiruan (JST) untuk membangun model klasifikasi yang dapat mengidentifikasi huruf atau aksara berdasarkan gambar yang diambil dari dataset tulisan tangan.
• Dataset yang digunakan berisi ribuan gambar tulisan tangan dari berbagai aksara., untuk aksara Latin, dataset dapat mencakup 26 huruf (A-Z) dengan ribuan contoh untuk setiap huruf. Dataset diambil dari sumber seperti MNIST untuk angka atau dataset lain yang relevan untuk huruf.
• Gambar dinormalisasi dengan membagi nilai piksel (0-255) dengan 255, sehingga nilai berada dalam rentang 0 hingga 1. Gambar yang awalnya berukuran 28 x 28 piksel diubah menjadi vektor satu dimensi 784 piksel jika menggunakan model sederhana, atau tetap dalam bentuk 2D jika menggunakan CNN (Convolutional Neural Network).
• Model jaringan saraf tiruan dibangun dengan beberapa lapisan : Input layer : 784 neuron atau lapisan input 2D untuk CNN.
Hidden layer : Satu atau lebih lapisan tersembunyi dengan 128 neuron dan fungsi aktivasi ReLU (Rectified Linear Unit).
Output layer : 26 neuron (jika mengenali huruf A-Z) dengan fungsi aktivasi softmax untuk menghasilkan probabilitas klasifikasi.
• Model dilatih menggunakan fungsi kerugian categorical cross-entropy untuk mengukur seberapa baik model memprediksi kelas yang benar. Algoritma optimasi seperti Adam digunakan untuk memperbarui bobot model selama pelatihan. Model dilatih selama 10 - 20 epoch dengan batch size 32.
• Model dievaluasi menggunakan data pengujian. Metrik akurasi, presisi dan recall digunakan untuk mengevaluasi kinerja model.
• Setelah model terbukti efektif, lembaga pendidikan dapat mengimplementasikan sistem pengenalan aksara untuk memindai atau mengenali tulisan tangan.
12. Deep Learning
Deep Learning (DL) adalah sub-bidang dari Machine Learning yang menggunakan jaringan saraf tiruan (Artificial Neural Networks) dengan banyak lapisan (deep neural networks) untuk mengekstrak fitur kompleks dari data dalam jumlah yang besar dengan meniru cara kerja otak manusia dalam memproses informasi. Model ini terdiri dari neuron, bobot (weights), dan fungsi aktivasi (activation function) yang memungkinkan sistem untuk belajar dari data[13]. Deep learning cocok untuk data yang tidak teratur seperti teks, suara dan citra, biasa diaplikasikan pada teknik klasifikasi, clustering, segmentasi ataupun recognition[9].
Contoh :
Perusahaan tambang PAMA ingin meningkatkan keamanan dan manajemen pekerja di lokasi tambang dengan mengembangkan sistem pengenalan wajah. Sistem ini bertujuan untuk mengidentifikasi pekerja secara otomatis saat mereka memasuki area tambang dan memastikan bahwa hanya pekerja yang terdaftar yang dapat mengakses lokasi berbahaya, serta memantau kehadiran dan aktivitas mereka.
• Perusahaan mengumpulkan dataset yang berisi ribuan gambar wajah pekerja tambang. Dataset ini mencakup variasi dalam pencahayaan, sudut pandang, ekspresi wajah, dan penggunaan alat pelindung diri (APD) seperti helm dan masker. Data diambil dari kamera pengawas yang terpasang di pintu masuk tambang.
• Gambar dinormalisasi dengan membagi nilai piksel (0-255) dengan 255, sehingga nilai berada dalam rentang 0 hingga 1. Gambar diubah ukurannya menjadi ukuran 224 x 224 piksel untuk memudahkan pemrosesan. Teknik augmentasi menggunakan rotasi, flipping, dan zooming untuk meningkatkan variasi data dan mencegah overfitting.
• Digunakan model Convolutional Neural Network (CNN). lapisan konvolusi untuk mengekstrak fitur dari gambar wajah. Lapisan max pooling untuk mengurangi dimensi dan menjaga fitur penting. Satu atau lebih lapisan terhubung penuh untuk mengklasifikasikan wajah berdasarkan fitur yang diekstrak. Lapisan output dengan neuron sebanyak jumlah pekerja yang dikenali, menggunakan fungsi aktivasi softmax untuk menghasilkan probabilitas klasifikasi.
• Model dilatih menggunakan fungsi kerugian categorical cross-entropy untuk mengukur seberapa baik model memprediksi kelas yang benar. Penggunaan algoritma optimasi seperti Adam atau SGD (Stochastic Gradient Descent) untuk memperbarui bobot model selama pelatihan. Model dilatih selama 20 – 50 epoch dengan batch size 32.
• Model dievaluasi menggunakan data pengujian. Metrik akurasi, presisi dan recall digunakan untuk mengevaluasi kinerja model.
• Setelah model terbukti efektif, perusahaan PAMA dapat mengimplementasikan sistem pengenala wajah kedalan infrastruktur keamanan tambang untuk mengurangi waktu yang diperlukan dalam memverifikasi identitas pekerja secara manual.
13. Performance Klasifikasi
Performa klasifikasi dapat ditingkatkan dengan cara menambahkan jumlah data, melengkapi data yang tidak lengkap, rekayasa fitur (feature engineering), penyaringan fitur (feature selection), penggunaan berbagai algoritma, penyesuaian algoritma, dan ensemble method. Upaya yang dapat dilakukan untuk meningkatkan performa klasifikasi ada dua, yaitu upaya yang pertama adalah upaya peningkatan kualitas dataset yang dilakukan dengan melakukan penambahan jumlah data dalam dataset, upaya yang kedua adalah dengan melakukan komparasi atau perbandingan terhadap performa klasifikasi dari beberapa algoritma pengklasifikasi. Algoritma pengklasifikasi yang digunakan selama percobaan terdiri dari algoritma Naïve Bayes, Random Forest, dan REPTree[14].
Contoh :
Misal toko somethinc ingin mengembangkan sistem yang dapat secara otomatis mengidentifikasi dan memfilter email spam dari kotak masuk pengguna untuk meningkatkan produktivitas karyawan dengan mengurangi jumlah email yang tidak diinginkan yang masuk ke dalam kotak masuk mereka.
• Perusahaan mengumpulkan dataset yang berisi email yang telah dilabeli sebagai
"spam" atau "bukan spam". Dataset ini dapat mencakup ribuan email yang diambil dari kotak masuk pengguna sebelumnya.
• Data yang dikumpulkan kemudian dibersihkan untuk menghapus email yang tidak relevan, duplikat, dan konten yang tidak diperlukan, seperti penghapusan karakter khusus, tautan, dan kata-kata umum yang tidak memberikan makna.
• Teks email kemudian diproses untuk dianalisis dengan cara memecah teks menjadi kata-kata atau frasa, mengubah kata ke bentuk dasarnya dan enggunakan teknik seperti Bag of Words atau TF-IDF (Term Frequency-Inverse Document Frequency) untuk mengubah teks menjadi representasi numerik yang dapat digunakan oleh model.
• Menerapkan beberapa algoritma klasifikasi seperti naive bayes, logistic regression, support vector machine (SVM) dan random forest. Kemudian model dilatih menggunakan data pelatihan dan diuji menggunakan data pengujian.
• Model dievaluasi menggunakan metrik akurasi, presisi, recall dan F1-score.
• Setelah model terbukti efektif maka toko somethinc dapat mengimplementasikan sistem deteksi spam dalam aplikasi email mereka dan dapat meningkatkan efisiensi komunikasi dan mengurangi ganguan email spam.
14. Confusion Matrix
Confusion matrix merupakan alat evaluasi yang dapat membantu untuk memahami model dengan melihat detail kesalahan klasifikasi yang dilakukan oleh model. Ini sangat berguna dalam mengidentifikasi pola kesalahan dan meningkatkan performa pada model.
• True Positive (TP) artinya model memprediksi benar untuk kelas positif
• False Positive (FP) artinya model salah memprediksi kelas negatif
• False Negative (FN) artinya model gagal mengenali kelas positif
• True Negative (TN) artinya model memprediksi benar untuk kelas negatif
• Jika FN tinggi maka model kurang sensitif sehingga bisa diperbaiki dengan augmentasi data atau meningkatkan kompleksitas model.
• Jika FP tinggi maka model terlalu sering mengklasifikasikan contoh ke kelas yang salah sehingga isa diperbaiki dengan menyesuaikan threshold prediksi atau melakukan fine tuning model.
• Jika kelas tertentu memiliki kesalahan tinggi maka mungkin bentuknya mirip sehingga bisa diperbaiki dengan menambah data latih atau menggunakan teknik transfer learning[13].
Contoh :
Misalkan kita memiliki dataset yang berisi 100 buah dan kita telah melatih model untuk mengklasifikasikan buah-buah tersebut.
True positive (TP) : 40 apel, False negative (FN) : 5 apel
False positive (FP) : 30 bukan apel, True negative (TN) : 25 bukan apel Dari hasil analisis model dapat kita hitung sebagai berikut :
• Akurasi : (TP + TN) / Total = (40 + 25) / 100 = 0,65 atau 65%
• Presisi : TP / (TP + FP) = 40 / (40 + 30) = 0,57 atau 57%
• Recall : TP / (TP + FN) = 40 / (40 + 5) = 0,88 atau 88%
• F1-Score : 2 x (Recall x Presisi / Recall + Presisi) = 2 x (0,88 x 0,57 / 0,88 + 0.57) = 1,0032 / 1,45 = 0,69 atau 69%
Sehingga dapat diambil kesimpulan bahwa model memiliki akurasi 65% dimana 40 dari 100 buah diklasifikasikan dengan benar. Namun, ada 5 buah apel yang tidak terdeteksi (False Negative), yang berarti model gagal mengenali beberapa buah apel.
Dan juga ada 30 buah yang bukan apel tetapi salah diklasifikasikan sebagai apel (False Positive)
Jika kita ingin meningkatkan model, kita harus mengurangi jumlah false negative, sehingga lebih banyak buah apel yang akan terdeteksi dengan benar.
15. Akurasi
Accuracy merupakan alat evaluasi model dimana Jika Training dan Validation Accuracy naik bersamaan artinnya model berjalan dengan baik., jika Training Accuracy tinggi tapi Validation Accuracy rendah artinya model Overfitting (model hafal data latih tapi tidak bisa mengenali data baru), jika Training dan Validation Accuracy sama-sama rendah artinya model Underfitting (model tidak cukup belajar dan tidak mengenali pola)[13].
Contoh :
Misalkan kita memiliki model untuk mendeteksi apakah seorang pasien menderita diabetes atau tidak. Ketika kita telah menguji model dengan 100 pasien, kita mendapatkan hasil klasifikasi :
True positive (TP) : 20 pasien menderita diabetes dan terdeteksi oleh model
False negative (FN) : 40 pasien yang tidak menderita diabetes dan tidak terdeteksi False positive (FP) : 20 pasien yang tidak menderita diabetes tetapi terdeteksi oleh model
True negative (TN) : 20 pasien yang menderita diabetes tetepi tidak terdeteksi oleh model
Dari hasil analisis model dapat kita hitung metrik kerja sebagai berikut : Akurasi : (TP + TN) / (TP + TN + FP + FN) = (20 + 20) / 100 = 0,4 atau 40%
Akurasi sebesar 40% menunjukkan bahwa model secara keseluruhan berhasil mengklasifikasikan 40 dari 100 pasien dengan benar.
16. Presisi
Seberapa banyak prediksi positif yang benar dari total prediksi positif[13]
Contoh :
Misalkan kita memiliki model untuk mendeteksi apakah seorang pasien menderita diabetes atau tidak. Ketika kita telah menguji model dengan 100 pasien, kita mendapatkan hasil klasifikasi :
True positive (TP) : 20 pasien menderita diabetes dan terdeteksi oleh model
False negative (FN) : 40 pasien yang tidak menderita diabetes dan tidak terdeteksi False positive (FP) : 20 pasien yang tidak menderita diabetes tetapi terdeteksi oleh model
True negative (TN) : 20 pasien yang menderita diabetes tetepi tidak terdeteksi oleh model
Dari hasil analisis model dapat kita hitung metrik kerja sebagai berikut : Presisi : TP / (TP + FP) = 20 / (20 + 20) = 0,5 atau 50%
Presisi sebesar 50% menunjukkan bahwa dari semua pasien yang terdeteksi sebagai menderita diabetes, 50% di antaranya benar-benar menderita diabetes. Ini penting untuk menghindari diagnosis palsu yang dapat menyebabkan pasien yang sehat menerima perawatan yang tidak perlu.
17. Recall
Seberapa banyak prediksi positif yang benar dari total data sebenarnya[13].
Contoh :
Misalkan kita memiliki model untuk mendeteksi apakah seorang pasien menderita diabetes atau tidak. Ketika kita telah menguji model dengan 100 pasien, kita mendapatkan hasil klasifikasi :
True positive (TP) : 20 pasien menderita diabetes dan terdeteksi oleh model
False negative (FN) : 40 pasien yang tidak menderita diabetes dan tidak terdeteksi False positive (FP) : 20 pasien yang tidak menderita diabetes tetapi terdeteksi oleh model
True negative (TN) : 20 pasien yang menderita diabetes tetepi tidak terdeteksi oleh model
Dari hasil analisis model dapat kita hitung metrik kerja sebagai berikut : Recall : TP / (TP + FN) = 20 / (20 + 40) = 0,3 atau 30%
Recall sebesar 30% menunjukkan bahwa dari semua pasien yang terdeteksi sebagai menderita diabetes, 30% di antaranya benar-benar menderita diabetes. Ini penting untuk menghindari diagnosis palsu yang dapat menyebabkan pasien yang sehat menerima perawatan yang tidak perlu.
18. F1-Score
Rata-rata harmonik antara precision dan recall[13].
Contoh :
Misalkan kita memiliki model untuk mendeteksi apakah seorang pasien menderita diabetes atau tidak. Ketika kita telah menguji model dengan 100 pasien, kita mendapatkan hasil klasifikasi :
True positive (TP) : 20 pasien menderita diabetes dan terdeteksi oleh model
False negative (FN) : 40 pasien yang tidak menderita diabetes dan tidak terdeteksi False positive (FP) : 20 pasien yang tidak menderita diabetes tetapi terdeteksi oleh model
True negative (TN) : 20 pasien yang menderita diabetes tetepi tidak terdeteksi oleh model
Dari hasil analisis model dapat kita hitung metrik kerja sebagai berikut :
F1-Score : 2 x (Recall x Presisi / Recall + Presisi) = 2 x (0,3 x 0,5 / 0,3 + 0,5) = 0,3 / 0,8 = 0,37 atau 37%
F1-Score sebesar 37% memberikan gambaran yang seimbang antara presisi dan recall, menunjukkan bahwa model memiliki kinerja yang baik dalam mendeteksi diabetes tanpa terlalu banyak menghasilkan hasil positif palsu.
Tema : Algoritma Estimasi, Clustering dan asosiasi beserta pengukuran kinerjanya 1. Algoritma Estimasi
Algoritma Estimasi Distribusi (Estimation Distribution Algorithm) adalah metode optimasi stokastik yang menjelajahi ruang solusi potensial dengan memanfaatkan hubungan antar variabel dan melakukan pengambilan sampel model probabilistik pada solusi yang menjanjikan. Oleh karena itu, EDA dapat menyelesaikan masalah optimasi kompleks dengan efisien[15]. Algoritma estimasi digunakan untuk memperkirakan suatu nilai berdasarkan data yang tersedia.
2. Regresi Linear
Regresi linear adalah teknik yang digunakan untuk menganalisis hubungan antara variabel dependen Y dan sejumlah variabel independen, X1,..., Xp. Metode ini bertujuan untuk memperkirakan nilai Y yang dipengaruhi oleh nilai X. Jika hanya ada satu variabel independen yang digunakan, maka disebut model regresi linier sederhana (simple linear regression), sedangkan jika lebih dari satu variabel independen digunakan, maka model tersebut disebut regresi linier berganda (multiple linear regression). Dalam penelitian ini, regresi linier sederhana adalah algoritma yang digunakan.
𝒀𝒀= 𝜶𝜶+𝒃𝒃𝒃𝒃 Dimana :
Y : nilai variabel terikat yang diestimasikan α : konstanta
b : koefisien variabel bebas X : variabel bebas (independen)
Nilai konstanta α dan nilai koefisien b dapat diperoleh dengan melakukan perhitungan memakai persamaan berikut[16].
𝜶𝜶= ∑𝒚𝒚.∑𝒙𝒙𝟐𝟐− ∑𝒙𝒙.∑𝒙𝒙𝒚𝒚 𝒏𝒏.∑𝒙𝒙𝟐𝟐−(∑𝒙𝒙)𝟐𝟐 𝒃𝒃= 𝒏𝒏.∑𝒙𝒙𝒚𝒚 − ∑𝒙𝒙.∑𝒚𝒚
𝒏𝒏.∑𝒙𝒙𝟐𝟐−(∑𝒙𝒙)𝟐𝟐 Contoh :
Sebuah perusahaan ingin mengetahui hubungan antara jumlah tahun pengalaman kerja (X) dan gaji karyawan per bulan (Y). Mereka ingin membuat model regresi linear untuk memprediksi gaji karyawan berdasarkan pengalaman kerja.
Tahun pengalaman (X) : 1, 2, 3, 4, 5 Gaji (Y) dalam juta : 4, 5, 7, 8, 10
X Y XY X2
1 4 4 1
2 5 10 4
3 7 21 21
4 8 32 16
5 10 50 25
∑𝑋𝑋 = 1 + 2 + 3 + 4 + 5 = 15
∑𝑌𝑌= 4 + 5 + 7 + 8 + 10 = 34
∑𝑋𝑋𝑌𝑌 = 4 + 10 + 21 + 32 + 50 = 117
∑𝑋𝑋2 = 1 + 4 + 9 + 16 + 25 = 55 𝑛𝑛 = 5
𝑏𝑏= 5.117− 15.34
5.55−152 = 585−510 275−225 =
75 50 = 1.5 𝛼𝛼= 34.55− 15.117
5.55−152 = 1.870−1.755 275−225 =
115 50 = 2.3 𝑌𝑌= 2.3 + 1.5𝑋𝑋
Jika ada seorang karyawan dengan 6 tahun pengalaman kerja, maka prediksi gajinya : 𝑌𝑌= 2.3 + 1.5(6) = 2.3 + 9 = 11.3
Jadi, perkiraan gaji karyawan dengan 6 tahun pengalaman adalah Rp 11,3 juta per bulan.
3. Linier Berganda
Linear Berganda adalah sebuah analisis yang melibatkan lebih dari satu variabel bebas, yang juga dikenal sebagai analisis regresi linear berganda. Teknik ini digunakan untuk menentukan apakah terdapat pengaruh signifikan dari dua atau lebih variabel bebas (𝑋𝑋1, 𝑋𝑋2, 𝑋𝑋3, … , 𝑋𝑋𝑛𝑛) terhadap variabel terikat (𝑌𝑌). Berikut bentuk persamaan untuk regresi linear berganda :
𝒀𝒀=𝒑𝒑+𝒒𝒒𝟏𝟏𝒃𝒃𝟏𝟏+ 𝒒𝒒𝟐𝟐𝒃𝒃𝟐𝟐+⋯+ 𝒒𝒒𝒏𝒏𝒃𝒃𝒏𝒏 Dimana :
Y : Variabel dependen / terikat P : Konstanta
𝑞𝑞1.𝑞𝑞𝑛𝑛: Koefisien regresi 𝑋𝑋1.𝑋𝑋𝑛𝑛 : Variabel bebas
Secara umum, algoritma regresi linier berganda dapat diterapkan sebagai metode untuk memperkirakan nilai akhir dalam topik dasar komputasi dan jaringan. Metode ini menilai data estimasi dengan menggunakan garis lurus untuk menggambarkan hubungan korelasi antara dua atau lebih variabel. Estimasi regresi linear berganda digunakan untuk mempelajari hubungan setiap variabel dalam proses perkiraan data[17].
Contoh :
Sebuah perusahaan ingin memprediksi gaji karyawan per bulan (Y) berdasarkan jumlah tahun pengalaman kerja (X1) dan jumlah sertifikasi yang dimiliki (X2). Data historis karyawan dikumpulkan sebagai berikut :
Tahun pengalaman (X1) Jumlah sertifikasi (X2) Gaji (Y) dalam juta
1 1 4
2 2 5
3 2 7
4 3 8
5 3 10
∑𝑋𝑋1 = 1 + 2 + 3 + 4 + 5 = 15
∑𝑋𝑋2 = 1 + 2 + 2 + 3 + 3 = 11
∑𝑌𝑌= 4 + 5 + 7 + 8 + 10 = 34
∑𝑋𝑋12 = 12+ 22 + 32+ 42 + 52 = 55
∑𝑋𝑋22 = 12+ 22+ 22+ 32+ 32 = 21
∑𝑋𝑋1𝑌𝑌 = (1𝑥𝑥4) + (2𝑥𝑥5) + (3𝑥𝑥7) + (4𝑥𝑥8) + (5𝑥𝑥10) = 117
∑𝑋𝑋2𝑌𝑌= (1𝑥𝑥4) + (2𝑥𝑥5) + (2𝑥𝑥7) + (3𝑥𝑥8) + (3𝑥𝑥10) = 90
∑𝑋𝑋1𝑋𝑋2 = (1𝑥𝑥1) + (2𝑥𝑥2) + (3𝑥𝑥2) + (4𝑥𝑥3) + (5𝑥𝑥3) = 34 𝑛𝑛 = 5
�
𝑛𝑛 ∑𝑋𝑋1 ∑𝑋𝑋2
∑𝑋𝑋1 ∑𝑋𝑋12 ∑𝑋𝑋1𝑋𝑋2
∑𝑋𝑋2 ∑𝑋𝑋1𝑋𝑋2 ∑𝑋𝑋22 � �𝑎𝑎 𝑏𝑏1
𝑏𝑏2� = � ∑𝑌𝑌
∑𝑋𝑋1𝑌𝑌
∑𝑋𝑋2𝑌𝑌�
�5 15 11 15 55 34 11 34 21� �
𝑏𝑏𝑎𝑎1
𝑏𝑏2�= � 34
11790� 𝑎𝑎 = 1.1, 𝑏𝑏1 = 1.5, 𝑏𝑏2 = 1.2
𝑌𝑌= 1.1 + 1.5𝑋𝑋1+ 1.2𝑋𝑋2
Jika ada seorang karyawan dengan 6 tahun pengalaman kerja dan 4 sertifikasi, maka prediksi gajinya :
𝑌𝑌= 1.1 + 1.5(6) + 1.2(4) = 1.1 + 9 + 4.8 = 14.9
Jadi, perkiraan gaji karyawan dengan 6 tahun pengalaman dan 4 tahun sertifikasi adalah Rp 14,9 juta per bulan.
4. Algoritma Clustering
Algoritma clustering merupakan kunci dalam mengidentifikasi struktur data yang tidak terlabel. Masing-masing algoritma clustering memiliki kelebihan dan kekurangannya sendiri. Pemilihan algoritma yang tepat dapat bergantung pada sifat data dan tujuan analisis. Untuk dapat memastikan bahwa hasil efektif dan akurat, penting untuk memahami karakteristik setiap algoritmanya[18].
5. K-Means Clustering
K-Means merupakan algoritma clustering partitional yang paling populer. Algoritma ini bekerja dengan menentukan terlebih dahulu jumlah klaster (K) dan kemudian secara iteratif memindahkan titik tengah (centroid) setiap klaster untuk meminimalkan varians dalam klaster. K-Means efektif untuk dataset yang besar dan cocok untuk klaster dengan bentuk globular atau memiliki ukuran dan densitas yang sama. K-Means sensitif dalam pemilihan nilai K awal dan tidak cocok untuk klaster dengan bentuk non- globular atau memiliki ukuran dan densitas yang berbeda[18].
Contoh :
Sebuah perusahaan ritel ingin mengelompokkan pelanggan berdasarkan pengeluaran tahunan (dalam juta rupiah) dan frekuensi belanja per bulan. Data pelanggan diberikan dalam bentuk berikut :
Pelanggan Pengeluaran tahunan (X) Frekuensi belanja (Y)
A 15 3
B 25 4
C 35 6
D 45 8
E 55 10
Perusahaan ingin mengelompokkan pelanggan ke dalam 2 klaster (K = 2) berdasarkan pola belanja mereka. Kita memilih K = 2, artinya kita ingin membagi pelanggan ke dalam 2 kelompok berdasarkan kemiripan data mereka. kita memilih dua ��k sebagai centroid awal :
Centroid 1 (C1) = (15, 3) → Pelanggan A Centroid 2 (C2) = (45, 8) → Pelanggan D
Kita menggunakan rumus jarak Euclidean untuk menghitung jarak antara titik data dan centroid :
𝒅𝒅= �(𝒃𝒃𝟐𝟐− 𝒃𝒃𝟏𝟏)𝟐𝟐+ (𝒀𝒀𝟐𝟐− 𝒀𝒀𝟏𝟏)𝟐𝟐
Pelanggan (X, Y) Jarak ke C1 (15,3) Jarak ke C2 (45,8) Klaster
A (15,3) 0 31.40 C1
B (25,4) 10.05 22.36 C1
C (35,6) 22.36 11.18 C2
D (45,8) 31.40 0 C2
E (55,10) 41.23 11.18 C2
Hasil Klastering Awal : C1 (Klaster 1) : A, B C2 (Klaster 2) : C, D, E
Centroid dihitung sebagai rata-rata dari titik-titik dalam klaster:
Centroid Baru untuk C1 (Klaster 1) : 𝐶𝐶1𝑥𝑥= (15 + 25)
2 = 40 2 = 20 𝐶𝐶1𝑦𝑦 = (3 + 4)
2 = 7 2 = 3.5
Centroid Baru untuk C2 (Klaster 2):
𝐶𝐶2𝑥𝑥= (35 + 45 + 55)
3 = 135 3 = 45 𝐶𝐶2𝑦𝑦 = (6 + 8 + 10)
3 = 24 3 = 8 Centroid Baru:
C1 (20, 3.5)
C2 (45, 8) (tetap sama)
Kita ulangi perhitungan jarak dengan centroid baru :
Pelanggan (X, Y) Jarak ke C1 (20, 3.5) Jarak ke C2 (45, 8) Klaster
A (15,3) 5.02 31.40 C1
B (25,4) 5.02 22.36 C1
C (35,6) 16.40 11.18 C2
D (45,8) 26.93 C2
E (55,10) 36.40 11.18 C2
Klaster tidak berubah dari sebelumnya. Karena klaster tidak berubah dari iterasi sebelumnya, maka proses klastering berhenti.
6. Algoritma Asosiasion Rule
Association Rules adalah metode analisis data yang bertujuan mengidentifikasi hubungan dan pola asosiasi antara item atau variabel dalam dataset. Dengan kata lain, metode ini membantu kita menemukan aturan atau korelasi yang mungkin tersembunyi di tengah-tengah data yang kompleks, baik untuk memahami perilaku konsumen, meningkatkan efisiensi operasional, atau mendukung pengambilan keputusan.
Pengembangan metode ini menggunakan konsep berikut yang merupakan landasan utamanya[18] :
• Support : mengukur seberapa sering suatu kombinasi item muncul dalam dataset.
𝑺𝑺𝑺𝑺𝒑𝒑𝒑𝒑𝑺𝑺𝑺𝑺𝑺𝑺(𝒃𝒃) = 𝑭𝑭𝑺𝑺𝑭𝑭𝑭𝑭𝑺𝑺𝑭𝑭𝒏𝒏𝑭𝑭𝑭𝑭(𝒃𝒃)
𝑱𝑱𝑺𝑺𝑱𝑱𝑱𝑱𝑱𝑱𝑱𝑱 𝑲𝑲𝑭𝑭𝑭𝑭𝑭𝑭𝑱𝑱𝑺𝑺𝑺𝑺𝑺𝑺𝑱𝑱𝑱𝑱𝒏𝒏 𝑫𝑫𝑱𝑱𝑺𝑺𝑱𝑱
• Confidence : menilai sejauh mana hubungan antara item-item tersebut.
𝑪𝑪𝑺𝑺𝒏𝒏𝑪𝑪𝑭𝑭𝒅𝒅𝑭𝑭𝒏𝒏𝑪𝑪𝑭𝑭(𝒃𝒃 → 𝒀𝒀) = 𝑺𝑺𝑺𝑺𝒑𝒑𝒑𝒑𝑺𝑺𝑺𝑺𝑺𝑺(𝒃𝒃 ∪ 𝒀𝒀) 𝑺𝑺𝑺𝑺𝒑𝒑𝒑𝒑𝑺𝑺𝑺𝑺𝑺𝑺(𝒃𝒃)
• Lift : mengukur kekuatan asosiasi relatif terhadap frekuensi itemset yang diharapkan secara acak.
𝑳𝑳𝑭𝑭𝑪𝑪𝑺𝑺 𝑺𝑺𝑱𝑱𝑺𝑺𝑭𝑭𝑺𝑺 = 𝑪𝑪𝑺𝑺𝒏𝒏𝑪𝑪𝑭𝑭𝒅𝒅𝑭𝑭𝒏𝒏𝑪𝑪𝑭𝑭 (𝑨𝑨,𝑩𝑩)
𝑩𝑩𝑭𝑭𝒏𝒏𝑪𝑪𝑱𝑱𝑱𝑱𝑱𝑱𝑺𝑺𝑭𝑭 𝑪𝑪𝑺𝑺𝒏𝒏𝑪𝑪𝑭𝑭𝒅𝒅𝑭𝑭𝒏𝒏𝑪𝑪𝑭𝑭 (𝑨𝑨,𝑩𝑩)
untuk mendapatkan nilai benchmark confidence dapat dihitung menggunakan rumus berikut.
𝑩𝑩𝑭𝑭𝒏𝒏𝑪𝑪𝑱𝑱𝑱𝑱𝑱𝑱𝑺𝑺𝑭𝑭 𝑪𝑪𝑺𝑺𝒏𝒏𝑪𝑪𝑭𝑭𝒅𝒅𝑭𝑭𝒏𝒏𝑪𝑪𝑭𝑭= 𝑵𝑵𝑪𝑪 Dimana : 𝑵𝑵
NC : jumlah transaksi dengan item yang menjadi conseduent N : jumlah transaksi basis data
Contoh :
Sebuah supermarket ingin menganalisis pola pembelian pelanggan untuk meningkatkan strategi penjualan. Data transaksi yang dikumpulkan selama seminggu adalah sebagai berikut :
Transaksi Item yang dibeli
T1 Susu, Roti, Mentega
T2 Susu, Roti
T3 Susu, Telur
T4 Roti, Mentega
T5 Susu, Roti, Telur, Mentega
T6 Susu, Roti, Telur
Tujuan supermarket adalah menemukan aturan asosiasi yang dapat membantu menyusun strategi promosi, seperti :
•Jika pelanggan membeli Susu, apakah mereka juga akan membeli Roti?
• Jika pelanggan membeli Roti, apakah mereka juga akan membeli Mentega?
Menentukan Support untuk setiap item
Susu = jumlah transaksi 5 = support 5/6 = 0.83 Roti = jumlah transaksi 5 = support 5/6 = 0.83 Mentega = jumlah transaksi 3 = support 3/6 = 0.50 Telur = jumlah transaksi 3 = support 3/6 = 0.50
Misalkan kita menetapkan support minimum = 0.5 (50%). Semua item memenuhi batas ini.
Menentukan Frequent Itemsets (2-itemset)
Kita sekarang mencari kombinasi 2 item dan menghitung support-nya.
Susu, Roti = jumlah transaksi 4 = support 4/6 = 0.67 Susu, Mentega = jumlah transaksi 2 = support 2/6 = 0.33 Susu, Telur = jumlah transaksi 3 = support 3/6 = 0.50 Roti, Mentega = jumlah transaksi 3 = support 3/6 = 0.50 Roti, Telur = jumlah transaksi 2 = support 2/6 = 0.33 Mentega, Telur = jumlah transaksi 1 = support 1/6 = 0.17 Itemset yang memiliki support di bawah 0.5 dibuang:
Susu, Mentega (0.33) → Dibuang Roti, Telur (0.33) → Dibuang Mentega, Telur (0.17) → Dibuang Frequent 2-itemset yang tersisa:
Susu, Roti (0.67) Susu, Telur (0.50) Roti, Mentega (0.50)
Menentukan Frequent Itemsets (3-itemset)
Kita mencari kombinasi 3 item dari frequent 2-itemset sebelumnya : Susu, Roti, Telur = jumlah transaksi 2 = support 2 = 2/6 = 0.33 Susu, Roti, Mentega = jumlah transaksi 2 = support 2 = 2/6 = 0.33
Karena semua 3-itemset memiliki support di bawah 0.5, mereka dibuang.
Frequent 2-itemset tetap sebagai kandidat aturan asosiasi.
Menentukan Confidence untuk Aturan Asosiasi
Misalkan kita menetapkan confidence minimum = 60% (0.6).
Aturan Susu → Roti = confidence 4/5 = 0.8 (80%) Aturan Roti → Susu = confidence 4/5 = 0.8 (80%) Aturan Susu → Telur = confidence 3/5 = 0.6 (60%)
Aturan Roti → Mentega = confidence 3/5 = 0.6 (60%)
Semua aturan di atas memenuhi confidence ≥ 60%, sehingga diterima.
Menghitung Lift untuk Menentukan Kekuatan Aturan Aturan Susu → Roti = lift 0.8/0.83 = 0.96
Aturan Roti → Susu = lift 0.8/0.83 = 0.96 Aturan Susu → Telur = lift 0.6/0.50 = 1.2 Aturan Roti → Mentega = lift 0.6/0.50 = 1.2
• Lift > 1 menunjukkan bahwa aturan memiliki hubungan positif (lebih sering terjadi bersama dibandingkan dengan kejadian acak).
• Lift ≈ 1 menunjukkan bahwa aturan tidak memiliki hubungan yang signifikan.
• Lift < 1 menunjukkan bahwa aturan terjadi lebih jarang dibandingkan dengan kejadian acak.
Aturan Susu → Telur dan Roti → Mentega memiliki Lift > 1, sehingga dapat digunakan untuk strategi pemasaran.
Sehingga dari hasil perhitungan algoritma Apriori, supermarket dapat mengambil kesimpulan berikut :
• Pelanggan yang membeli Susu cenderung membeli Roti (80% confidence).
Strategi: Letakkan susu dan roti dalam satu rak atau berikan diskon bundle.
• Pelanggan yang membeli Roti cenderung membeli Mentega (60% confidence, Lift
>1).
Strategi: Tawarkan paket diskon untuk roti dan mentega.
• Pelanggan yang membeli Susu cenderung membeli Telur (60% confidence, Lift >
1).
Strategi: Tawarkan promosi seperti "Beli susu, diskon telur 10%".
7. Apriori
Algoritma apriori merupakan algoritma yang terkenal untuk menemukan pola frekuensi tinggi. Algoritma apriori digunakan untuk menemukan aturan asosiasi yang menggambarkan keterkaitan antara item atau variabel. Algoritma apriori terbagi menjadi dua tahap[18], yaitu :
• Analisis pola frekuensi tinggi
Tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database.
Nilai support sebuah item diperoleh dengan rumus :
𝑺𝑺𝑺𝑺𝒑𝒑𝒑𝒑𝑺𝑺𝑺𝑺𝑺𝑺(𝑨𝑨) = ∑𝑺𝑺𝑺𝑺𝑱𝑱𝒏𝒏𝑭𝑭𝑱𝑱𝑭𝑭𝑭𝑭𝑭𝑭 𝑱𝑱𝑭𝑭𝒏𝒏𝒎𝒎𝑱𝑱𝒏𝒏𝒅𝒅𝑺𝑺𝒏𝒏𝒎𝒎 𝑨𝑨
∑𝑺𝑺𝑺𝑺𝑱𝑱𝒏𝒏𝑭𝑭𝑱𝑱𝑭𝑭𝑭𝑭𝑭𝑭 Sedangkan nilai support dari 2 item diperoleh dari rumus :
𝑺𝑺𝑺𝑺𝒑𝒑𝒑𝒑𝑺𝑺𝑺𝑺𝑺𝑺(𝑨𝑨,𝑩𝑩) =𝑷𝑷(𝑨𝑨 ∩ 𝑩𝑩)
=∑𝑺𝑺𝑺𝑺𝑱𝑱𝒏𝒏𝑭𝑭𝑱𝑱𝑭𝑭𝑭𝑭𝑭𝑭 𝑱𝑱𝑭𝑭𝒏𝒏𝒎𝒎𝑱𝑱𝒏𝒏𝒅𝒅𝑺𝑺𝒏𝒏𝒎𝒎 𝑨𝑨 𝒅𝒅𝑱𝑱𝒏𝒏 𝑩𝑩
∑𝑺𝑺𝑺𝑺𝑱𝑱𝒏𝒏𝑭𝑭𝑱𝑱𝑭𝑭𝑭𝑭𝑭𝑭
• Pembentukan aturan asosiasi
Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan assosiatif yang memenuhi syarat minimum untuk confidence dengan menghitung confidence aturan assosiatif A → B Nilai confidence dari aturan A →B yang diperoleh dari rumus :
𝑪𝑪𝑺𝑺𝒏𝒏𝑪𝑪𝑭𝑭𝒅𝒅𝑭𝑭𝒏𝒏𝑪𝑪𝑭𝑭=𝑷𝑷(𝑩𝑩|𝑨𝑨) = ∑𝑺𝑺𝑺𝑺𝑱𝑱𝒏𝒏𝑭𝑭𝑱𝑱𝑭𝑭𝑭𝑭𝑭𝑭 𝑱𝑱𝑭𝑭𝒏𝒏𝒎𝒎𝑱𝑱𝒏𝒏𝒅𝒅𝑺𝑺𝒏𝒏𝒎𝒎 𝑨𝑨 𝒅𝒅𝑱𝑱𝒏𝒏 𝑩𝑩
∑𝑺𝑺𝑺𝑺𝑱𝑱𝒏𝒏𝑭𝑭𝑱𝑱𝑭𝑭𝑭𝑭𝑭𝑭 𝑱𝑱𝑭𝑭𝒏𝒏𝒎𝒎𝑱𝑱𝒏𝒏𝒅𝒅𝑺𝑺𝒏𝒏𝒎𝒎 𝑨𝑨 8. Performance Regresi
Proses evaluasi dilakukan sesudah data dianalisis dengan menggunakan algoritma yang dipilih. Tujuannya agar dapat melakukan penilaian pada hasil dari proses data mining[19].
9. Root Mean Square Error (RMSE)
Kesalahan standar dari estimasi dihitung dengan RMSE (Root Mean Square Error).
RMSE adalah alat ukur yang digunakan untuk mengevaluasi selisih antara nilai yang diprediksi oleh model atau estimator dan nilai yang sebenarnya diamati. Analisis regresi memiliki berbagai kegunaan, seperti mendeskripsikan fenomena data atau kasus yang sedang diteliti, untuk tujuan pengendalian, serta untuk tujuan peramalan atau prediksi[17].
Contoh :
Seorang analis data ingin mengevaluasi kinerja model regresi yang memprediksi harga rumah berdasarkan luas tanah. Berikut adalah data sebenarnya (actual values) dan hasil prediksi model (predicted values) untuk 5 rumah :
Rumah Harga sebenarnya (actual, yi) Harga prediksi (predicted, ŷi)
1 500 juta 480 juta
2 700 juta 710 juta
3 800 juta 780 juta
4 650 juta 630 juta
5 900 juta 890 juta
Hitung Error untuk Setiap Data Error dihitung dengan rumus :
𝑭𝑭𝑭𝑭= 𝒚𝒚𝑭𝑭− ŷ𝑭𝑭 Rumah Harga sebenarnya
(actual, yi) Harga prediksi
(predicted, ŷi) Error (𝑒𝑒𝑖𝑖)
1 500 juta 480 juta 500 – 480 = 20
2 700 juta 710 juta 700 – 710 = -10
3 800 juta 780 juta 800 – 780 = 20
4 650 juta 630 juta 650 – 630 = 20
5 900 juta 890 juta 900 – 890 = 10
Hitung Error Kuadrat
Error kuadrat dihitung dengan rumus :
𝑭𝑭𝑭𝑭𝟐𝟐= (𝒚𝒚𝑭𝑭− ŷ𝑭𝑭)𝟐𝟐
Rumah Error (𝑒𝑒𝑖𝑖) Error kuadrat (𝑭𝑭𝑭𝑭𝟐𝟐)
1 20 202 = 400
2 -10 (−10)2 = 100
3 20 202 = 400
4 20 202 = 400
5 10 102 = 100
Total error kuadrat :
∑𝑒𝑒𝑖𝑖2 = 400 + 100 + 400 + 400 + 100 = 1.400 Hitung Mean Squared Error (MSE)
𝑀𝑀𝑀𝑀𝑀𝑀 = 1.400
5 = 280
Hitung Root Mean Square Error (RMSE) RMSE dihitung dengan rumus :
𝑅𝑅𝑀𝑀𝑀𝑀𝑀𝑀= √𝑀𝑀𝑀𝑀𝑀𝑀= √280 = 16.73
Sehingga, RMSE untuk model ini adalah 16.73 juta. Nilai ini menunjukkan rata-rata kesalahan prediksi harga rumah sekitar 16.73 juta rupiah. Semakin kecil nilai RMSE, semakin baik model regresi dalam memprediksi harga rumah.
10. Mean Square Error (MSE)
Mean Squared Error (MSE) adalah rata-rata dari kuadrat perbedaan antara nilai estimasi dan nilai aktual [19]. MSE berfungsi untuk menilai seberapa baik model dalam menggambarkan hubungan antara variabel dependen dan variabel independen. Apabila nilai MSE yang diperoleh rendah, hal ini menunjukkan bahwa model tersebut cenderung memberikan estimasi yang tepat. Rumus MSE ditunjukan pada persamaan[16].
𝑴𝑴𝑺𝑺𝑴𝑴= 𝟏𝟏
𝒏𝒏 �𝒏𝒏 (𝑪𝑪𝑭𝑭 − 𝒚𝒚𝑭𝑭)
𝑭𝑭=𝟏𝟏
𝟐𝟐
Dimana :
�i : nilai actual
yi : nilai hasil estimasi n : jumlah data
Contoh :
Seorang analis data ingin mengevaluasi kinerja model regresi dalam memprediksi harga rumah. Berikut adalah data sebenarnya (actual values) dan hasil prediksi model (predicted values) untuk 5 rumah :
Rumah Harga sebenarnya (actual, yi) Harga prediksi (predicted, ŷi)
1 500 juta 480 juta
2 700 juta 710 juta
3 800 juta 780 juta
4 650 juta 630 juta
5 900 juta 890 juta
Hitung Error untuk setiap data Rumah Harga sebenarnya
(actual, yi) Harga prediksi
(predicted, ŷi) Error (𝑒𝑒𝑖𝑖)
1 500 juta 480 juta 500 – 480 = 20
2 700 juta 710 juta 700 – 710 = -10
3 800 juta 780 juta 800 – 780 = 20
4 650 juta 630 juta 650 – 630 = 20
5 900 juta 890 juta 900 – 890 = 10
Hitung Error Kuadrat
Rumah Error (𝑒𝑒𝑖𝑖) Error kuadrat (𝑭𝑭𝑭𝑭𝟐𝟐)
1 20 202 = 400
2 -10 (−10)2 = 100
3 20 202 = 400
4 20 202 = 400
5 10 102 = 100
Total error kuadrat :
∑𝑒𝑒𝑖𝑖2 = 400 + 100 + 400 + 400 + 100 = 1.400 Hitung Mean Squared Error (MSE)
𝑀𝑀𝑀𝑀𝑀𝑀 = 1.400
5 = 280
Sehingga, Mean Squared Error (MSE) = 280 juta. Ini berarti, rata-rata kesalahan kuadrat dari prediksi harga rumah adalah 280 juta rupiah. Semakin kecil nilai MSE, semakin baik model dalam memprediksi harga rumah. MSE memberikan penalti lebih besar untuk error yang lebih besar karena menggunakan kuadrat error.
11. Mean Absolute Error (MAE)
Mean Absolute Error adalah penghitungan rata-rata dari perbedaan absolut antara estimasi dan nilai aktual. Semakin kecil nilai MAE, semakin baik performa model tersebut. Berikut adalah rumus MAE[16].
𝑴𝑴𝑺𝑺𝑴𝑴= 𝟏𝟏
𝒏𝒏 �𝒏𝒏 |𝑪𝑪𝑭𝑭 − 𝒚𝒚𝑭𝑭|
𝑭𝑭=𝟏𝟏
Dimana :
�i : nilai actual
yi : nilai hasil estimasi n : jumlah data
Contoh :
Seorang analis data ingin mengevaluasi kinerja model regresi dalam memprediksi harga rumah. Berikut adalah data sebenarnya (actual values) dan hasil prediksi model (predicted values) untuk 5 rumah :
Rumah Harga sebenarnya (actual, yi) Harga prediksi (predicted, ŷi)
1 500 juta 480 juta
2 700 juta 710 juta
3 800 juta 780 juta
4 650 juta 630 juta
5 900 juta 890 juta
Hitung Error Absolut untuk Setiap Data Error absolut dihitung dengan rumus :
|𝑭𝑭𝑭𝑭| = |𝒚𝒚𝑭𝑭− ŷ𝑭𝑭| Rumah Harga sebenarnya
(actual, yi) Harga prediksi
(predicted, ŷi) Error absolut (𝑒𝑒𝑖𝑖)
1 500 juta 480 juta 500 – 480 = 20
2 700 juta 710 juta 700 – 710 = -10
3 800 juta 780 juta 800 – 780 = 20
4 650 juta 630 juta 650 – 630 = 20
5 900 juta 890 juta 900 – 890 = 10
Hitung Mean Absolute Error (MAE) 𝑀𝑀𝑀𝑀𝑀𝑀 = 20 + 10 + 20 + 20 + 10
5 = 80
5 = 16
Sehingga, Mean Absolute Error (MAE) = 16 juta. Ini berarti, rata-rata kesalahan prediksi model adalah 16 juta rupiah per rumah. Semakin kecil nilai MAE, semakin baik model dalam memprediksi harga rumah.
12. Mean Precentage Absolute Error (MAPE)
Mean Precentage Absolute Error (MAPE) adalah metode untuk menghitung rata-rata kesalahan persentase absolut antara nilai yang diperkirakan dan nilai aktualnya. Dalam persamaan ini, terdapat persentase kesalahan dari prediksi yang dilakukan.
𝑷𝑷𝑴𝑴= �𝒃𝒃𝑺𝑺 − 𝑭𝑭𝑺𝑺
𝒃𝒃𝑺𝑺 �.𝟏𝟏𝟏𝟏𝟏𝟏 Dimana :
Xt : nilai data aktual
Ft : nilai data yang diestimasi
Setelah mendapatkan persentase kesalahan, langkah berikutnya adalah menghitung nilai kesalahan MAPE. Untuk menghitung nilai MAPE, dapat menggunakan persamaan[16].
𝑴𝑴𝑨𝑨𝑷𝑷𝑴𝑴 = ∑|𝑷𝑷𝑴𝑴|
Dimana : 𝒏𝒏
PE : Persentase error n : banyak data Contoh :
Seorang analis data ingin mengevaluasi kinerja model regresi dalam memprediksi harga rumah. Berikut adalah data sebenarnya (actual values) dan hasil prediksi model (predicted values) untuk 5 rumah :
Rumah Harga sebenarnya (actual, yi) Harga prediksi (predicted, ŷi)
1 500 juta 480 juta
2 700 juta 710 juta
3 800 juta 780 juta
4 650 juta 630 juta
5 900 juta 890 juta
Hitung Error Absolut untuk Setiap Data Rumah Harga sebenarnya
(actual, yi) Harga prediksi
(predicted, ŷi) Error absolut (𝑒𝑒𝑖𝑖)
1 500 juta 480 juta 500 – 480 = 20
2 700 juta 710 juta 700 – 710 = 10
3 800 juta 780 juta 800 – 780 = 20
4 650 juta 630 juta 650 – 630 = 20 <