Konstruksi Tes Hasil Belajar

BAB II LANDASAN TEORI

A. Kajian Pustaka

3. Konstruksi Tes Hasil Belajar

Tes hasil belajar yang baik dikonstruksi dengan memenuhi validitas, reliabilitas, dan karakteristik butir soal yaitu dengan tingkat kesulitan , daya beda, dan pengecoh alternatif jawaban.

a. Validitas

Surapranata (2004: 50) menyatakan bahwa validitas adalah sebuah konsep yang mempunyai hubungan dengan tingkat sejauh mana tes telah mengukur yang seharusnya diukur. Ratnawulan (2015: 59) validitas berkaitan dengan “ketepatan” dengan alat ukur. Menurut Gronlund (dalam Sukardi 2008: 30) valid dapat diartikan sebagai ketepatan interpretasi yang dihasilkan dari skor tes atau instrumen

evaluasi. Sukardi (2008: 31) menyatakan validitas adalah derajat yang menunjukkan di mana mengukur apa yang hendak diukur.

Berdasarkan pendapat para ahli di atas, maka dapat disimpulkan bahwa validitas merupakan sebuah konsep yang berhubungan dengan “ketepatan” yang mempunyai hubungan dengan tingkat sejauh mana tes telah mengukur yang seharusnya diukur.

Sedangkan menurut Sukiman (dalam Ratnawulan 2015: 59) validitas suatu instrumen evaluasi mempunyai beberapa makna penting di antaranya adalah seperti berikut:

a) Validitas berhubungan dengan ketepatan interprestasi hasil tes atau instrumen evaluasi untuk grup individual dan bukan instrumen sendiri.

b) Validitas diartikan sebagai derajat yang menunjukkan kategori yang bisa mencangkup kategori rendah, menengah, dan tinggi.

c) Prinsip suatu tes valid, tidak universal. Validitas suatu tes yang perlu diperhatikan oleh para peneliti adalah bahwa ia hanya valid untuk suatu tujuan tertentu saja. Tes valid untuk bidang studi metrologi industri belum tentu valid untuk bidang lain misalnya bidang mekanik teknik.

Secara metodologis, validitas suatu tes dapat dibedakan menjadi empat macam, yaitu :

a) Validitas Isi

Validitas isi adalah kesesuaian antar butir-butir soal dalam tes dengan deskripsi bahan yang diajarkan. Sebuah soal yang dikatakan memiliki validitas isi apabila sesuai dengan isi kurikulum yang hendak diukur. Semua materi yang diajarkan tertera dalam kurikulum, oleh sebab itu validitas isi ini disebut validitas kurikulum. Cara yang digunakan dalam menentukan validitas isi adalah dengan mengkaji isi tes. Kriteria yang menjadi dasar pengujian validitas isi adalah kisi-kisi yang telah direncanakan.

b) Validitas Konstruk

Konstruk (Construct) adalah suatu yang berkaitan dengan fenomena dan objek yang abstrak, tetapi gejalanya dapat di amati dan dapat diukur. Validitas konstruk mengandung arti bahwa suatu alat ukur dikatakan valid apabila telah cocok dengan konstruksi teoritik di mana tes tersebut dibuat. Dengan kata lain sebuah tes akan dikatakan memiliki validitas konstuk apabila soal-soalnya mampu mengukur aspek berpikir seperti yang telah diuraikan dalam standar kompetensi, kompetensi dasar, dan indikator yang terdapat pada kurikulum. Konstruksi yang dimaksud pada validitas ini berupa rekaan psikologis yang

berkaitan dengan aspek mengingat, pemahaman, aplikasi, analisis, sintesis, dan evaluasi.

c) Validitas Prediksi

Validitas Prediksi adalah derajat yang menunjukkan suatu tes dapat memprediksi tentang bagaimana seseorang akan melakukan suatu prospek tugas atau pekerjaan yang direncanakan. Validitas prediksi (predictive validity)

menunjukkan hubungan antara tes skor yang diperoleh peserta tes dengan keadaan yang akan terjadi diwaktu yang akan datang. Sebuah tes akan dikatakan memiliki validitas prediksi apabila mempunyai kemampuan untuk memprediksi atau memperkirakan apa yang akan terjadi di masa yang akan datang.

d) Validitas “ada sekarang” (Concurrent Validity)

Validitas ini lebih umum dikenal dengan validitas empiris. Sebuah tes dapat dikatakan memiliki validitas empiris jika hasilnya sesuai dengan pengalaman. Jika ada istilah “sesuai” tentu ada dua hal yang dipasangkan. Dalam hal ini, hasil tes dipasangkan dengan hasil pengalaman. Pengalaman selalu mengenai hal yang telah lampau, sehingga data pengalaman tersebut sekarang sudah ada (ada sekarang, concurrent).

b. Reliabilitas

Ratnawulan (2015: 60) kata “reliabilitas” dalam bahasa Indonesia diambil dari kata reliability dalam bahasa Inggris, yang berasal dari kata asal reliable yang artinya dapat dipercaya. Purwanto (2008: 154) reliabilitas merupakan akurasi dan presisi yang dihasilkan oleh alat ukur dalam melakukan pengukuran. Alat ukur yang reliabel

akan menghasilkan ukuran “yang sebenarnya”. Alat ukur yang

reliabel akan memberikan hasil pengukuran yang relatif stabil dan konsisten karena pengukurannya menghasilkan alat yang minimal. Sukardi (2008: 48) menyatakan bahwa reliabilitas adalah karakter lain dari hasil evaluasi. Reliabilitas dapat diartikan sama dengan konsistensi atau keajegan. Suatu instrumen evaluasi, dikatakan mempunyai nilai reliabilitas tinggi, apabila tes yang dibuat tersebut mempunyai hasil yang konsisten dalam mengukur yang hendak diukur. Berdasarkan pendapat para ahli dapat disimpulkan bahwa reliabilitas adalah ketepatan atau kestabilan suatu instrumen sehingga apabila dilakukan sebuah uji reliabilitas hasilnya akan tetap sama (konsisten).

Widoyoko (2009: 145) memaparkan bahwa ada dua cara untuk menguji reliabilitas, yaitu dengan menggunakan metode bentuk pararel, metode tes berulang, instrumen skor diskrit, dan instrumen

skor non diskrit. Berikut penjelasan tentang cara untuk menguji reliabilitas:

1. Reliabilitas Eksternal (External Reliability) a. Metode Bentuk Paralel (Equivalent Method)

Metode pararel dilakukan dengan cara menyusun dua instrumen yang hampir sama (equivalent). Instrument paralel atau

equivalent adalah dua buah instrumen yang mempunyai kesamaan tujuan, tingkat kesulitan dan susunan, tetapi butir-butir pertanyaan/pernyataan berbeda. Kelemahan metode ini adalah membutuhkan waktu dan biaya yang lebih karena harus menyusun dua instrumen, dan harus tersedia waktu yang lama untuk melakukan uji coba sebanyak dua kali.

b. Metode tes Berulang (Test-retest Method)

Metode ini dilakukan untuk menghindari penyusunan instrumen dua kali. Dengan menggunakan metode ini, kita hanya menyusun satu perangkat instrumen. Untuk tes yang banyak mengungkap pengetahuan (ingatan) dan pemahaman, metode ini kurang mengena karena responden masih ingat akan butir-butir soalnya. Pada Umumnya hasil tes yang kedua cenderung lebih baik daripada hasil tes pertama. Hal ini dimungkinkan karena adanya carry over effect.

2. Reliabilitas Internal (Internal Reliability)

a. Instrumen Skor Diskrit

Instrumen skor diskrit, nominal atau pilah adalah instrumen yang skor jawaban/responsnya hanya dua, yaitu 1 (satu) dan 0 (nol). Dengan kata lain hanya dua jawaban yaitu benar dan salah. Jawaban benar diberi skor 1 (satu) sedangkan jawaban salah diberi skor 0 (nol). Metode belah dua ini dikemukakan oleh

Spearman-Brown.

Ada dua cara membelah butir instrumen, yaitu :

1) Membelah butir instrumen menjadi kelompok butir nomor genap dan kelompok butir nomor ganjil yang selanjutnya disebut dengan belahan genap-ganjil.

2) Membelah butir instrumen menjadi kelompok butir nomor awal dan kelompok butir nomor akhir, yaitu separuh jumlah pada nomor-nomor awal dan separuh pada nomor-nomor akhir yang selanjutnya disebut dengan belahan awal-akhir. b. Instrumen Skor Non Diskrit

Instrumen skor non diskrit adalah instrumen pengukuran yang dalam sistem skoringnya bukan 1 dan 0 (satu dan nol), tetapi bersifat gradual, yaitu ada penjenjangan skor, mulai dari skor tertinggi sampai skor terendah.

c. Karakteristik butir soal a) Daya pembeda

Ratnawulan (2015: 169) menyatakan bahwa daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan antara siswa yang telah menguasai materi yang ditanyakan dan siswa yang tidak/kurang/belum menguasai materi yang ditanyakan. Menurut Purwanto (2009: 102) daya pembeda adalah kemampuan butir soal membedakan siswa yang mempunyai kemampuan tinggi dan rendah. Arifin (2009: 133) daya pembeda soal adalah kemampuan soal untuk membedakan antara peserta didik yang pandai (menguasai materi) dengan peserta didik yang kurang pandai (kurang/tidak menguasai materi).

Berdasarkan pendapat para ahli dapat disimpulkan bahwa daya beda adalah kemampuan item soal untuk membedakan antara siswa yang pandai (menguasai materi pelajaran) dengan siswa yang kurang pandai (tidak menguasai materi pelajaran).

b) Tingkat kesukaran

Menurut Aiken (dalam Ratnawulan, 2015: 169) tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat kemampuan tertentu yang dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran pada umumnya dinyatakan dalam bentuk proporsi yang besarnya berkisar 0,00-1,00. Purwanto (2009:

99) memaparkan tingkat kesulitan adalah proporsi siswa peserta tes yang menjawab benar. Rentang nilai tingkat kesulitan antara 0-1. Semakin tinggi tingkat kesulitan, maka butir soal semakin mudah dan banyak yang menjawab dengan benar. Sebaliknya jika semakin rendah tingkat kesulitan maka butir semakin sukar dan sedikit yang menjawab benar. Tingkat kesukaran diklasifikasikan menjadi tiga, yaitu sukar, sedang, dan mudah.

Berdasarkan pendapat para ahli dapat disimpulkan bahwa tingkat kesukaran adalah sebuah peluang untuk menjawab dengan benar suatu soal pada tingkat kemampuan tertentu. Kriteria yang sudah ditentukan dalam tingkat kesukaran ada tiga yaitu sukar, sedang, dan mudah. Semakin tinggi tingkat kesukaran maka soal tersebut akan dikategorikan dalam soal yang mudah namun apabila soal tersebut tingkat kesukarannya rendah maka soal tersebut dikategorikan sebagai soal yang sukar.

c) Analisis pengecoh

Menurut Purwanto (2009: 108) pengecoh disebut sebagai penyesat atau penggoda yang merupakan jawaban tetapi bukan merupakan kunci jawaban. Pengecoh dibuat untuk menyesatkan siswa dan mengoda siswa yang kurang begitu jelas dengan materi untuk memilih jawaban yang bukan merupakan kunci jawaban.

Arifin (2009:279) menjelaskan bahwa butir soal dapat dikatakan baik apabila pengecohnya dipilih secara merata oleh peserta tes, sedangkan butir soal dapat dikatakan kurang baik apabila pengecohnya dipilih secara tidak merata. Arikunto (2012: 234) mengungkapkan bahwa sebuah distraktor dapat dikatakan berfungsi dengan baik jika paling sedikit dipilih oleh 5% peserta tes.

Berdasarkan pendapat para ahli dapat disimpulkan bahwa pengecoh adalah sebuah pilihan jawaban yang bukan termasuk dalam kunci jawaban yang berfungsi sebagai pengecoh atau penggoda peserta tes agar memilih pengecoh tersebut. Pengecoh tersebut akan berfungsi dengan baik jika jawaban pengecoh tersebut dipilih secara merata oleh peserta tes paling sedikit dipilih sebanyak 5%.

Dalam dokumen Pengembangan tes hasil belajar matematika kompetensi dasar 3.3 menyelesaikan masalah yang berkaitan dengan satuan waktu, panjang, dan berat untuk siswa kelas IV Sekolah Dasar (Halaman 42-52)