• Tidak ada hasil yang ditemukan

LANDASAN TEORI

D. Tinjauan Tentang Tes Pilihan Ganda (Multiple Choice Test)

5. Kualitas Tes Pilihan Ganda Secara Empirik

Tes pilihan ganda mata pelajaran Geografi yang berkualitas secara empirik yaitu mempunyai validitas yang dapat mengukur kemampuan dalam mata pelajaran, reliabilitas yang menggambarkan keajekan alat tes, mempunyai tingkat kesukaran sedang, dan daya pembeda yang tinggi.

a. Validitas (Validity)

Validitas sebuah tes dapat diketahui dari pemikiran dan dari hasil pengalaman. Hal yang pertama akan diperoleh validitas logis (logical validity) dan hal yang kedua diperoleh validitas empiris (empirical validity). Secara garis besar ada dua macam validitas, yaitu validitas logis dan validitas empiris.

1) Validitas Rasional

Validitas rasional adalah validitas yang diperoleh atas dasar hasil pemikiran, validitas yang diperoleh dengan berpikir secara logis. Dengan demikian maka suatu tes hasil belajar dapat dikatakan telah memiliki validitas rasional, apabila setelah dilakukan penganalisisan secara rasional ternyata bahwa tes hasil belajar itu memang (secara rasional) dengan tepat telah dapat mengukur apa yang seharusnya diukur. Untuk dapat menentukan apakah tes hasil belajar sudah memiliki validitas rasional ataukah belum, dapat dilakukan penelusuran dari segi susunan atau konstruksinya.

a) Validitas isi (content validity)

Validitas isi dari suatu tes hasil belajar adalah validitas yang diperoleh setelah dilakukan penganalisisan, penelusuran atau pengujian terhadap isi yang terkandung dalam tes hasil belajar tersebut. Validitas isi adalah validitas yang ditilik dari segi isi tes itu sendiri sebagai alat pengukur hasil belajar peserta didik, isinya telah dapat mewakili secara representatif terhadap keseluruhan materi atau bahan pelajaran yang seharusnya diteskan (diujikan). Validitas isi dari suatu tes hasil belajar dapat diketahui dengan jalan membandingkan antara isi yang terkandung dalam tes hasil belajar, dengan tujuan instruksional khusus yang telah ditentukan untuk masing-masing mata pelajaran, apakah hal-hal yang tercantum dalam tujuan instruksional khusus sudah mewakili secara nyata dalam tes hasil belajar tersebut.

b) Validitas Konstruksi ( construct validity)

Validitas konstruksi dapat diartikan sebagai validitas yang ditilik dari segi susunan, kerangka atau rekaanya. Adapun secara terminologis, suatu tes hasil belajar dapat dinyatakan sebagai tes yang telah memiliki validitas konstruksi, apabila tes hasil belajar tersebut ditinjau dari segi susunan, kerangka atau rekaanya, telah dapat dengan

secara tepat mencerminkan suatu konstruksi. Tes hasil belajar baru dapat dikatakan telah memiliki validitas susunan apabila butir-butir soal atau item yang membangun tes tersebut benar-benar telah dapat dengan secara tepat mengukur aspek-aspek berpikir (seperti: aspek kognitif, aspek afektif, aspek psikomotor) sebagaimana telah ditentukan dalam tujuan instruksioanal khusus.

Validitas konstruksi dari suatu tes hasil belajar dapat dilakukan penganalisisanya dengan jalan melakukan pencocokan antara aspek-aspek berpikir yang terkandung dalam tes hasil belajar tersebut, dengan aspek-aspek berpikir yang dikehendaki untuk diungkap oleh tujuan instruksional khusus. Dengan demikian sama halnya dengan penganalisisan validitas isi, kegiatan menganalisis validitas konstruksi ini dilakukan secara rasional, dengan berpikir kristis atau logika. Jika secara logis atau secara rasional hasil penganalisisan itu menunjukkan bahwa aspek-aspek berpikir yang diungkap melalui butir-butir soal tes hasil belajar itu sudah dengan tepat mencerminkan aspek-aspek berpikir yang oleh tujuan instruksional khusus diperintahkan untuk diungkap, maka tes hasil belajar tersebut dapat dinyatakan valid dari segi susunanya atau memiliki validitas konstruksi (Sudijono, 2009: 166-167).

2) Validitas Empiris

Validitas empirik adalah ketepatan mengukur yang didasarkan pada hasil analisis yang bersifat empirik. Untuk dapat menentukan apakah tes hasil belajar sudah memiliki validitas empirik ataukah belum, dapat dilakukan penelusuran dari dua segi, yaitu dari segi daya ketepatan meramalnya (predictive validity) dan daya ketetapan bandinganya (concurrent validity).

a) Validitas ramalan (predictive validity)

Validitas ramalan dari suatu tes adalah suatu kondisi yang menunjukkan seberapa jauhkah sebuah tes dapat dengan secara tepat menunjukkan kemampuanya untuk meramalkan apa yang bakal terjadi pada masa mendatang. Untuk mengetahui apakah suatu tes hasil belajar dapat dinyatakan sebagai tes yang telah memiliki validitas ramalan atau belum, dapat ditempuh dengan cara mencari korelasi antara tes hasil belajar yang sedang diuji validitas ramalanya dengan kriterium yang ada (Sudijono, 2009: 168-170).

b) Validitas bandingan (concurrent validity)

Tes sebagai alat pengukur dapat dikatakan telah memiliki validitas bandingan apabila tes tersebut dalam

kurun waktu yang sama dengan secara tepat telah mampu menunjukkan adanya hubungan yang searah, antara tes pertama dengan tes berikutnya. Dalam rangka menguji validitas bandingan, data yang mencerminkan pengalaman yang diperoleh pada masa lalu itu, kita bandingkan dengan data hasil tes yang diperoleh sekarang ini. Jika hasil tes yang ada sekarang ini mempunyai hubungan searah dengan hasil tes berdasar pengalaman yang lalu, maka tes yang memiliki karakteristik seperti itu dapat dikatakan telah memiliki validitas bandingan (Sudijono, 2009: 177).

Syarat soal yang berkualitas diantaranya adalah bahwa soal harus sahih (valid). Validitas soal dapat diketahui dengan dua cara yaitu validitas rasional dan validitas empiris. Dari masing-masing validitas tersebut dibedakan lagi menjadi dua, jadi ada empat jenis validitas, yaitu: validitas isi, validitas konstruk, validitas ramalan, dan validitas bandingan. Dari keempat validitas tersebut peneliti lebih menekankan pada validitas isi.

b. Reliabilitas (Reliability)

Kehandalan (reliability) berasal dari kata rely yang artinya percaya dan reliabel yang artinya dapat dipercaya. Menurut Thorndike dan Hagen (1977), reliabilitas berhubungan dengan akurasi instrumen dalam mengukur apa yang diukur, kecermatan hasil ukur dan seberapa akurat seandainya dilakukan pengukuran

ulang. Hopkins dan Atens (1979:5) menyatakan reliabilitas sebagai konsistensi pengamatan yang diperoleh dari pencatatan berulang baik pada satu subjek maupun sejumlah subjek.

Kerlinger memberikan beberapa batasan tentang reliabilitas yaitu: (1) reliabilitas dicapai apabila kita mengukur himpunan objek yang sama berulang kali dengan instrumen yang sama atau serupa akan memberikan hasil yang sama atau serupa, (2) reliabilitas dicapai apabila ukuran yang diperoleh dari suatu instrumen pengukur

adalah ukuran “yang sebenarnya” untuk sifat yang diukur, dan (3)

keandalan dicapai dengan meminimalkan galat pengukuran yang terdapat dalam suatu instrumen pengukur (Purwanto, 2009:154). c. Tingkat Kesukaran (Difficulty Index)

Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha memecahkanya. Sebaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan tidak mempunyai semngat untuk mencoba lagi karena di luar jangkauanya. Tingkat kesukaran (difficulty index) dapat didefinisikan sebagai proporsi siswa peserta tes yang menjawab benar. Besarnya indeks kesukaran antara 0,00 sampai dengan 1,0. Indeks kesukaran ini menunjukan taraf kesukaran soal. Soal dengan indeks kesukaran 0,0 menunjukkan bahwa soal itu terlalu sukar , sebaliknya indeks 1,0

menunjukkan bahwa soalnya terlalu mudah. Menurut aturan yang diikuti, indeks kesukaran sering diklasifikasikan sebagai berikut : P < 0,30 : soal sukar

0,30 ≤P≤0,70 : soal cukup (sedang) P > 0,70 : soal mudah

(Arikunto, 2009:207)

d. Daya Beda (Discriminating Power)

Daya beda item adalah kemampuan suatu butir item tes hasil belajar untuk dapat membedakan testee yang mempunyai kemampuan tinggi dengan testee yang kemampuanya rendah, sehingga sebagian besar testee yang mempunyai kemampuan tinggi untuk menjawab butir item tersebut lebih banyak yang menjawab betul, sementara testee yang kemampuanya rendah untuk menjawab butir item tersebut sebagian besar tidak dapat menjawab item dengan betul. Daya beda harus diusahakan positif dan setinggi mungkin. Butir soal yang mempunyai daya beda positif dan tinggi berarti butir tersebut dapat membedakan dengan baik siswa kelompok atas dan bawah. Siswa kelompok atas adalah kelompok siswa yang tergolong pandai atau mencapai skor total hasil belajar yang tinggi dan siswa kelompok bawah adalah kelompok siswa yang bodoh atau memperoleh skor total hasil belajar yang rendah.

Adapun cara menentukan dua kelompok itu bisa bervariasi, misalnya: dapat menggunakan median sehingga pembagian menjadi

dua kelompok itu terdiri atas 50% testee kelompok atas dan 50% testee kelompok bawah, dapat juga dengan hanya mengambil 27% dari testee yang termasuk dalam kelompok atas dan 27% lainya diambilkan dari testee yang termasuk dalam kelompok bawah, dapat juga menggunakan angka persentase lainya.

Klasifikasi Daya Pembeda: D : 0,00 – 0,20 : jelek D : 0,20 – 0,40 : cukup D : 0,40 – 0,70 : baik D : 0,70 – 1,00 : baik sekali D : Bertanda negatif (Arikunto, 2009 : 211-218).

Dalam penelitian pengembangan tes pilihan ganda yang berkualitas peneliti dalam menentukan daya beda soal menggunakan median sehingga pembagian menjadi dua kelompok itu terdiri atas 50% testee kelompok atas dan 50% testee kelompok bawah karena subjek coba dalam penelitian ini jumlahnya kurang dari 100.

e. Pola Jawaban Soal

Pola jawaban soal adalah distribusi testee dalam hal menentukan pilihan jawaban pada soal bentuk pilihan ganda. Pola jawaban soal diperoleh dengan menghitung banyaknya testee yang memilih pilihan jawaban a,b,c, atau d atau yang tidak memilih

pilihan manapun (blangko). Dalam istilah evaluasi disebut omit, disingkat O.

Dari pola jawaban soal dapat ditentukan apakah pengecoh (distractor) berfungsi sebagai pengecoh dengan baik atau tidak. Pengecoh yang tidak dipilih sama sekali oleh testee berarti bahwa pengecoh itu jelek, terlalu menyolok menyesatkan. Sebaliknya sebuah distraktor (pengecoh) dapat dikatakan berfungsi dengan baik apabila distraktor tersebut mempunyai daya tarik yang besar bagi pengikut-pengikut tes yang kurang memahami konsep atau kurang menguasai bahan. Suatu distraktor dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5% pengikut tes (Arikunto, 2009: 220).

Dalam tes pilihan ganda terdapat sembilan model yaitu model melengkapi lima pilihan, model asosiasi dengan lima atau empat pilihan, model melengkapi berganda, model analisis hubungan antarhal, model analisis kasus, model hal kecuali, model hubungan dinamik, dan model pemakaian diagram, grafik, peta, atau gambar. Dalam penelitian pengembangan ini, peneliti akan mengembangkan tes pilihan ganda model melengkapi lima pilihan, karena model melengkapi lima pilihan ini paling sering digunakan guru SMA Negeri 3 Pati untuk mengetahui hasil belajar siswa. Sehingga peneliti lebih menekankan dalam pengembangan tes pilihan ganda model melengkapi lima pilihan, yang akan dikembangkan sesuai dengan syarat tes, baik dari segi teoritik dan

empiris, sehingga akan menghasilkan tes pilihan ganda model melengkapi lima pilihan yang berkualitas. Untuk analisis teoritik dalam penelitian ini meliputi materi, konstruk, dan bahasa yang akan dinilai oleh pakar materi dan evaluasi pembelajaran dan guru mata pelajaran Geografi, sedangkan analisis empiris meliputi validitas, reliabilitas, daya pembeda, tingkat kesukaran dan distraktor dapat diketahui dengan melakukan uji coba soal, selanjutnya hasil uji coba akan dianalisis menggunakan microsoft excel dan program anates. Soal dikatakan valid apabila nilai rpbi > rtabel. Soal yang reliabel dalam penelitian ini apabila r11>rtabel , maka instrumen tersebut reliabel. Untuk menentukan daya pembeda dalam penelitian ini menggunakan kriteria, sebagai berikut: DP ≤ 0,00 : sangat jelek

0,00 < DP ≤ 0,20 : jelek

0,20 < DP ≤ 0,40 : cukup

0,40 < DP ≤ 0,70 : baik

0,70 < DP ≤ 1,00 : sangat baik

Untuk menentukan tingkat kesukaran dalam penelitian ini menggunakan kriteria, sebagai berikut:

IK = 0,00 : terlalu sukar

0,00 < IK ≤ 0,30 : sukar

0,30 < IK ≤ 0,70 : sedang 0,70 < IK < 1,00 : mudah

Untuk menentukan distraktor dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5% pengikut tes. Dalam penelitian ini distraktor dapat dikatakan baik untuk uji kelompok kecil apabila telah dipilih 1 oleh siswa dari 28 siswa, dan untuk uji lapangan distraktor dikatakan baik jika telah dipilih 3 oleh siswa dari 58 siswa.