Prediksi Nilai Hasil Ujian Siswa Menggunakan Regresi Linear CHAPTER 1
1. Tujuan Penelitian
Pendidikan di era modern ini memegang peranan krusial dalam pembentukan masyarakat yang cerdas dan berdaya saing. Evaluasi kemajuan siswa, yang sering tercermin dalam nilai hasil ujian, menjadi indikator utama dalam menilai efektivitas sistem pendidikan. Namun, terdapat tantangan dalam pengambilan keputusan terkait kemajuan siswa, terutama ketidakpastian mengenai faktor-faktor yang memberikan dampak signifikan pada hasil ujian mereka. Kendala ini dapat melibatkan faktor-faktor seperti lingkungan belajar, motivasi siswa, dan metode pengajaran. Oleh karena itu, pemahaman mendalam mengenai variabel-variabel ini menjadi penting, dan prediksi nilai hasil ujian menjadi langkah awal dalam menyusun solusi terukur untuk meningkatkan kualitas pendidikan.
2. Variabel yang dibutuhkan a. Nilai Ujian 1
b. Nilai Ujian 2 c. Nilai Ujian 3 d. Waktu belajar e. Internet f. absensi
3. Sumber Data
https://archive.ics.uci.edu/dataset/320/student+performance
4. Evaluasi Kualitas Data
Pengumpulan data awal berupa dataset dengan format .csv. Pada hasil evaluasi kualitas data, terdapat beberapa atribut dengan jenis tipe data yang berbeda, sehingga value di dalam atribut tersebut, ada yang berbentuk numerical dan kategorikal. Tipe data tersebut perlu untuk dilakukan penyesuaian agar value atau nilai pada data dapat seragam dan bisa diproses lebih lanjut.
5. Volume dan Ukuran Sampel
Komposisi Data = 80% Data Training dan 20% Data Testing
Data Training = 649 record Data Testing = 130 record CHAPTER 2
Nama Dataset Deskripsi
Student Performance
Dataset Student Performance berisi informasi tentang pencapaian siswa di dua sekolah di Portugal dalam pendidikan
menengah. Data yang
dikumpulkan mencakup nilai siswa, informasi demografis, fitur sosial, dan informasi terkait sekolah melalui laporan sekolah dan kuesioner. Terdapat dua set data yang mencatat kinerja siswa dalam dua mata pelajaran berbeda, yaitu Matematika (mat) dan Bahasa Portugal (por). Dalam penelitian [Cortez dan Silva, 2008], kedua set data ini dianalisis menggunakan klasifikasi dan regresi. Pada dataset ini, terdapat atribut G1, G2, dan G3. Atribut target G3 memiliki hubungan kuat dengan atribut G2 dan G1. Hal ini disebabkan karena G3 mencerminkan nilai tahun terakhir (dikeluarkan pada periode 3), sementara G1 dan G2 mengacu pada nilai periode 1 dan 2.
Jumlah Baris Data
Dataset yang digunakan adalah dataset pada student-por.csv, dengan jumlah baris data yaitu 650 baris.
Link Dataset
https://archive.ics.uci.edu/dataset/320/student+performance
1. Faktor yang membuat data dari dataset Student Performance berkualitas yaitu:
a. Varietas Atribut: Dataset ini memiliki beragam atribut yang mencakup informasi tentang siswa, termasuk demografis, sosial, dan pendidikan mereka. Ini memungkinkan untuk analisis yang komprehensif tentang faktor-faktor apa yang memengaruhi kinerja siswa.
b. Ukuran Sampel: Dengan 650 baris data, dataset ini memiliki ukuran yang cukup besar untuk melakukan analisis yang lebih mendalam dan pembangunan model yang dapat diandalkan.
c. Kualitas Data: Penelitian [Cortez dan Silva, 2008] telah menganalisis dataset ini menggunakan berbagai metode, menunjukkan bahwa data tersebut telah melalui proses penelitian dan analisis yang cermat.
d. Relevansi: Atribut target, yaitu nilai akhir dalam mata pelajaran (G3), memiliki hubungan yang kuat dengan atribut G2 dan G1, yang mengindikasikan relevansi dan pentingnya dataset ini dalam memprediksi kinerja akademis siswa.
2. Jumlah data dari dataset student performance sebanyak 650 baris dinyatakan cukup untuk diolah lebih lanjut karena:
a. Representasi yang Memadai: Penting untuk memastikan bahwa dataset mencakup variasi yang cukup dari atribut-atribut yang relevan dengan kinerja siswa. Dengan 650 baris data, terdapat potensi untuk mewakili berbagai kondisi sosial, demografis, dan pendidikan siswa.
b. Analisis Kepentingan Relatif: Sebelum melakukan analisis, identifikasi faktor-faktor yang diyakini memiliki pengaruh signifikan terhadap kinerja siswa. Dalam hal ini, atribut-atribut seperti tingkat pendidikan orang tua, waktu belajar, dukungan pendidikan tambahan, dan lainnya, yang dapat
diidentifikasi melalui penelitian sebelumnya atau pengalaman praktis, akan menjadi fokus utama analisis.
c. Kemampuan Model: Dalam pembangunan model untuk memprediksi kinerja siswa, jumlah data yang lebih besar akan memungkinkan model untuk belajar pola-pola yang lebih kompleks dan dapat dipercaya. Namun, dengan 650 baris data, masih memungkinkan untuk membangun model yang sederhana dan mendapatkan pemahaman awal tentang faktor-faktor yang mempengaruhi kinerja siswa.
d. Validitas Statistik: Sebelum membuat kesimpulan, penting untuk melakukan analisis statistik yang memadai untuk memastikan keandalan hasilnya.
analisis korelasi dapat memberikan pemahaman yang lebih mendalam tentang hubungan antara variabel-variabel yang ada dalam dataset.