• Tidak ada hasil yang ditemukan

Kriteria Tes yang Baik

LANDASAN TEORI

A. Tinjauan Pustaka

4. Kriteria Tes yang Baik

Untuk bisa memberikan data yang akurat, sesuai dengan fungsinya maka ada beberapa persyaratan yang harus dipenuhi, untuk dapat dikatakan sebagai tes yang baik. Menurut Poerwanti, “secara umum tes yang baik memiliki syarat-syarat antara lain: (1) hanya mengukur satu aspek saja. Tes yang baik memiliki sebuah aspek saja yang akan diukur; (2) handal dalam pengukuran, kehandalan ini meliputi ketepatan hasil pengukuran dan keajegan hasil pengukuran” (2001: 33).

Untuk dapat menjadi alat ukur yang baik dan dapat memberikan informasi yang akurat maka setiap soal sebagai bagian dari konstruksi tes harus dijaga kualitasnya. Poerwanti (2001) menyatakan:

Ada beberapa kriteria yang dapat dipakai untuk menyusun butir-butir tes yang berkualitas, yaitu:

a. Valid. Soal dikatakan valid bila dapat mengukur apa yang seharusnya diukur, validitas soal dapat dilihat dari kesesuaian soal dengan tujuan instruksional khusus dan tujuan pengukuran yang telah ditetapkan. Validitas dapat pula dilihat dari kemampuannya memprediksi prestasi di masa yang akan datang.

b. Relevan. Tes yang relevan mengandung soal-soal yang dapat mengukur kemampuan belajar sesuai dengan tingkat kemampuan yang ditetapkan dalam indikator pencapaian hasil belajar (ranah kognitif, afektif, dan psikomotor). Bila kompetensi dasar dan indikator bertujuan mengungkap ranah afektif, pertanyaan soal harus pula mengarah ke sikap dan seterusnya.

c. Spesifik. Soal harus direncanakan sedemikian rupa agar jawabannya pasti dan tidak menimbulkan ambivalensi atau spekulasi dalam memberikan jawaban. Kesulitan soal tidak saja kesulitan materi juga bisa ditambah kesulitan dalam memahami soal bila soal tidak disusun secara spesifik.

d. Representatif. Soal tes sebaiknya dikembangkan dari satuan materi yang jelas cakupannya, dan bersifat komprehensif dalam pengertian materi tes harus mencakup seluruh materi pengajaran, untuk itu seluruh pokok bahasan (sub pokok bahasan) idealnya harus terwakili dalam soal tes. Syarat ini akan dapat mengurangi error terhadap hasil pengukuran.

e. Seimbang. Dalam proses pengajaran dosen akan tahu persis, bahwa setiap pokok bahasan memiliki tingkat kesulitan yang berbeda, soal tes

commit to user

dikatakan seimbang bila pokok bahasan yang terpenting mendapat porsi terbanyak dalam soal. Kalau dalam keadaan terpaksa hal tersebut tidak dapat dilakukan maka keseimbangan dapat dicapai dengan memberikan bobot yang berbeda pada pokok bahasan yang memiliki tingkat kesulitan yang berbeda.

f. Sensitif. Syarat ini berkait erat dengan taraf kesukaran soal, butir tes yang baik harus memiliki sensitivitas untuk membedakan siswa yang benar-benar menguasai materi dengan yang tidak, hal ini tidak akan tercapai bila soal terlalu sulit sehingga semua siswa tidak dapat mengerjakan, atau soal yang terlalu gampang sehingga semua siswa dapat mengerjakan dengan benar.

g. Fair. Tes hasil ujian hendaklah bersifat terbuka dalam pengertian tidak mengandung jebakan, jelas cakupan materinya, kejelasan norma yang dipakai serta kriteria keberhasilannya. Dalam pelaksanaannya obyektif, tidak merugikan kelompok tertentu.

h. Praktis. Dalam pengertian bahwa tes tidak sulit untuk dilaksanakan dilihat dari segi pembiayaan maupun pelaksanaannya. Tes yang baik harus efisien dan mudah untuk dilaksanakan (hlm. 34-35).

Kualitas instrumen sebagai alat ukur ataupun alat pengumpul data diukur dari kemampuan alat ukur tersebut untuk dapat mengungkapkan dengan secermat mungkin fenomena-fenomena ataupun gejala yang diukur. Kualitas yang menunjukkan pada tingkat keajegan, kemantapan serta konsistensi dari data yang diperoleh itulah yang disebut validitas dan reliabilitas.

a. Validitas

Validitas alat ukur menunjukkan kualitas kesahihan suatu instrumen atau alat pengumpul data dapat dikatakan valid atau sahih apabila alat ukur tersebut mampu mengukur apa yang seharusnya diukur/diinginkan, sehingga alat ukur dikatakan sahih apabila dapat mengungkap secara cermat dan tepat data dari variabel yang diteliti. Tinggi rendahnya tingkat validitas instrumen menunjukkan sejauh mana data dari variabel yang terkumpul tidak menyimpang dari gambaran tentang variabel yang dimaksud. Kerlinger (1986) menyatakan bahwa validitas alat ukur tidak cukup ditentukan oleh derajad ketepatan alat ukur dapat mengukur apa yang seharusnya diukur, tetapi perlu pula diihat dari tiga kriteria yang lain yaitu Appropriatness, Meaningfullness, dan Usefullness (Poerwanti, 2001: 36).

commit to user

19 Mundilarto (2010) menyatakan ada beberapa tipe validitas baik yang menggunakan kriteria internal maupun eksternal, yakni:

1) Validitas isi (content validity) yang menggunakan kriteria internal berkaitan dengan isi atau materi dan format dari instrumen tes. Seberapa tepat dan seberapa lengkap butir-butir instrumen tes mampu menggambarkan isi, materi, konsep, kemampuan, atau variabel yang akan diukur. Penggunaan panel atau expert judgement merupakan cara menentukan validitas isi. Apabila tes dimaksudkan untuk menilai hasil belajar, maka yang digunakan sebagai kriteria atau pedoman adalah kurikulumnya.

2) Validitas konstruk (construct validity) yang juga menggunakan kriteria internal berkaitan dengan kajian teoritis tentang konstruk dan karakteristik dari variabel atau konsep yang akan diukur. Validitas konstruk ditentukan berdasarkan pada kajian teoritis yang diterjemahkan ke dalam definisi operasional tentang variabel atau konsep yang akan diukur. Dengan demikian, hal penting yang harus dilakukan dalam rangka menentukan validitas konstruk adalah pendefinisian variabel atau konsep yang akan diukur.

3) Validitas kriterion (criterion validity) menggunakan kriteria eksternal ditentukan berdasarkan korelasi antara skor yang diperoleh melalui instrumen tes yang sedang dikembangkan dengan skor yang diperoleh melalui instrumen tes lain yang sudah dinyatakan valid dan digunakan sebagai kriteria. Terdapat dua jenis validitas kriterion, yakni

concurrent validity dan predictive validity. Concurrent validity

menggunakan kriteria skor dari tes sejenis yang sudah dinyatakan valid, sedangkan predictive validity menggunakan kriteria skor dari penilaian atas penampilan seseorang di dalam situasi nyata di kemudian hari. Teknik korelasi point biserial atau biserial dapat digunakan untuk menentukan validitas criterion (hlm. 92).

Idealnya, suatu tes hasil belajar harus memenuhi syarat validitas baik validitas internal maupun eksternal. Validitas internal ditetapkan berdasarkan pada asumsi bahwa jika setiap faktor, setiap subtes, atau setiap butir tes sudah dinyatakan valid, maka tes tersebut secara keseluruhan dapat dikatakan valid. Validitas internal ditentukan melalui analisis butir soal yang meliputi tingkat kesukaran butir soal, daya pembeda butir soal, distribusi jawaban tes, dan reliabilitas tes.

Mehrens & Lehmann menyatakan, ”Tes diagnostik bisa dianggap valid jika: (1) bagian-bagian tes kemampuan komponen harus menekankan hanya pada satu jenis kesalahan; dan (2) perbedaan-perbedaan bagian tes harus dapat

commit to user

dipercaya. Hal ini bisa dicapai hanya apabila bagian tes memiliki reliabilitas yang tinggi dan korelasi antar-tes yang rendah” (1973: 462). Dapat diambil kesimpulan pengertian tes diagnostik adalah tes yang digunakan untuk menilai pemahaman konsep siswa, terutama kelemahan (miskonsepsi) pada topik tertentu dan mendapatkan masukan tentang respon siswa untuk memperbaiki kelemahannya. b. Reliabilitas

Pengertian yang paling sederhana dari reliabilitas adalah kemantapan alat ukur dalam pengertian bahwa alat ukur tersebut dapat diandalkan atau memiliki keajegan hasil. Pada dasarnya hubungan antara validitas dan reliabilitas dapat dikemukakan bahwa alat ukur yang valid akan cenderung menghasilkan pengukuran yang reliabel, sebaliknya alat ukur yang reliabel sama sekali tidak menunjuk pada validitas alat ukur tersebut.

Kerlinger (1986) mengemukakan bahwa reliabilitas dapat diukur dari tiga kriteria yaitu: (1) stability, adalah kriteria yang menunjuk pada keajegan (konsistensi) hasil yang ditunjukkan alat ukur dalam mengukur gejala yang sama, pada waktu yang berbeda; (2) dependability, yaitu kriteria yang mendasarkan diri pada kemantapan alat ukur atau seberapa jauh alat ukur dapat diandalkan; (3) predictability, karena perilaku merupakan proses yang saling berkait dan berkesinambungan, maka kriteria ini mengidealkan alat ukur yang dapat diramalkan hasilnya dan meramalkan hasil pada pengukuran gejala selanjutnya (Poerwanti, 2001: 38). Mundilarto (2010) menyatakan:

Indeks reliabilitas tes dapat ditentukan menggunakan:

1) Teknik ulangan (test retest method). Teknik ulangan merupakan konsistensi eksternal. Penyelenggaraan tes dilakukan dua kali pada waktu yang berbeda. Teknik ini dimaksudkan untuk mengetahui apakah ada stabilitas atau konsistensi antara hasil tes pertama dengan hasil tes kedua. Namun demikian, apakah dengan teknik ini factor-faktor yang mempengaruhi stabilitas pengukuran telah dipenuhi. Teknik ini memiliki kelemahan yaitu sulitnya kita membuat kondisi penyelenggaraan tes yang benar-benar sama.

2) Teknik bentuk paralel (equivalent forms method). Teknik bentuk paralel juga merupakan konsistensi eksternal. Pada teknik ini , kita menyiapkan dua bentuk tes yang seimbang untuk diberikan kepada sekelompok subjek yang sama. Dengan teknik ini ingin diketahui

commit to user

21 apakah ada kesamaan antara dua bentuk tes tersebut. Teknik ini memiliki kelemahan yaitu sulitnya kita membuat dua bentuk tes yang benar-benar seimbang dan masing-masing dapat mewakili keseluruhan aspeknya.

3) Teknik belah dua (split half method). Teknik belah dua merupakan konsistensi internal. Pada teknik ini, penyelenggaraan tes cukup satu kali. Skor total setiap siswa dibagi menjadi dua bagian, yakni skor butir-butir bernomor gasal sebagai skor tes belahan pertama dan skor butir-butir bernomor genap sebagai skor tes belahan kedua. Setelah itu, diuji apakah terdapat korelasi antara skor tes belahan pertama dengan skor tes belahan kedua (hlm. 96).

Selain teknik-teknik tersebut, teknik lain untuk menentukan indeks reliabilitas tes adalah menggunakan formula Kuder-Richardson yang merupakan konsistensi internal. Pada teknik ini, menurut Mundilarto penyeleggaraan tes cukup satu kali dan tidak perlu membagi butir tes menjadi dua bagian (2010). Terdapat dua bentuk formula Kuder-Richardson, yaitu:

1) Formula Kuder-Richardson 20 Bentuk formula ini adalah:

                

2 2 1 SD pq SD n n R 2.1

Keterangan: R adalah indeks reliabilitas tes n adalah jumlah butir tes

SD adalah simpangan baku skor tes

p adalah proporsi subjek yang menjawab benar butir soal q adalah proporsi subjek yang menjawab salah butir soal harga q = 1 – p

2) Formula Kuder-Richardson 21 Bentuk formula ini adalah:

                            2 1 1 1 SD n Mt Mt n n R 2.2

commit to user

Keterangan: R adalah indeks reliabilitas tes n adalah jumlah butir tes

SD adalah simpangan baku skor tes Mt adalah rerata skor tes total

Formula Kuder-Richardson 21 menggunakan asumsi bahwa setiap butir soal memiliki tingkat kesukaran butir soal yang sama. Sementara itu, formula Kuder-Richardson 20 tidak memerlukan asumsi tersebut.

Dokumen terkait