Statistik butir tes - DAN ITEM RESPONS THEORY (QUEST) Dadan Rosana, Heru Ferdiyanto, Lusiana D

DAN ITEM RESPONS THEORY (QUEST) Dadan Rosana, Heru Ferdiyanto, Lusiana Dwi Rahayu

1. Statistik butir tes

Secara empiris, kualitas butir dapat dilihat dari statistik butirnya. Dalam pendekatan teori tes klasik, hal ini berkaitan dengan tingkat kesukaran butir, daya pembeda, dan keefektifan distraktor.

Besarnya tingkat kesukaran berkisar antara 0 sampai dengan 1. Nilai tingat kesukaran yang baik adalah 0,3 sampai 0,7. Butir yang memiliki tingkat kesukaran dibawah 0,3 dikategorikan sebagai butir yang sulit, dan yang memiliki tingkat kesukaran diatas 0,7 dikategorikan mudah. (Sumarna Surapranata, 2006: 21). Besarnya daya beda untuk menyatakan butir adalah baik adalah butir memiliki indeks daya beda (DB) > 0,3. Butir tes dengan daya beda diatas 0,2 sampai 0,29 dikatakan cukup baik, dan butir dikatakan tidak baik jika memiliki indeks daya beda

140 kurang dari 0,19. (Djemari Mardapi, 2005: 5).

Suatu pengecoh (distraktor) dikatakan efektif jika dipilih minimal 2% responden dan dikatakan baik jika memiliki nilai rbis negatif.

(Djunaidi Lababa, 2008: 35) 2. Statistik perangkat tes

Indeks keadaan (reliabilitas) tes yang baik adalah di atas 0,7 (Djemari Mardapi:

1997: 6). Keandalan ini berakaitan dengan estimasi kesalahan baku (Standard Error of Measurement). Jika indeks keandalan tes besar maka nilai kesalahan bakunya kecil, hal ini menggambarkan tingkat kecocokan dengan nilai sebenarnya.Berdasarkan karakteristik butir yang diperoleh, kualitas butir secara empiris dapat digolongkan dalam kategori:

a. Baik, jika tingkat kesukaran (p) berkisar antara 0,3 sampai dengan 0,7; rpbis>0,3;

dan korelasi biserial jawaban bernilai negatif kecuali kunci jawaban.

b. Cukup baik, jika: (1). nilai p>0,70 atau p<0,30, rpbis>0,30; dan korelasi biserial jawaban bernilai negatif kecuali kunci jawaban. (2). 0,30≤ p ≤0,70 rpbis>0,30;

dan ada korelasi biserial jawaban bernilai positif selain kunci jawaban. (3). nilai p>0,7 atau p<0,3, 0,20≤ rpbis ≤ 0,30; dan korelasi biserial jawaban bernilai negatif kecuali kunci jawaban.

c. Tidak baik, jika: (a). nilai p>0,70 atau p<0,30 dan ada korelasi biserial jawaban bernilai positif selain kunci jawaban. (b). rpbis soal

<0,20 (c). rpbis soal <0,30 dan ada korelasi biserial jawaban bernilai positif selain kunci jawaban.

Dalam analisis kuantitatif IRT, data yang diperoleh akan dianalisis secara matematis dengan bantuan komputer menggunakan program Quest. Dari output Quest dapat diketahui:

1. Taraf kesukaran butir dalam skala logit 2. Distribusi jawaban peserta

3. Kecocokan soal dengan model 4. Estimasi kemampuan siswa

5. Distribusi tingkat kesukaran soal dengan kemampuan siswa

HASIL PENELITIAN DAN PEMBAHASAN

Hasil Analisis kuantitatif dengan pendekatan Teori Tes Klasik

Analisis tes klasik dilakukan dengan menggunakan program microCAT ITEMAN versi 3.00. Adapun tujuannya adalah untuk mengetahui karakteristik dan kualitas empiris butir tes yang digunakan dalam ujian nasional SMA di DIY tahun pelajaran 2008/2009 berdasarkan Teori Tes Klasik (classical test theory).

Hasil analisis ini akan menghasilkan karakteristik butir dan karakteristik tes berupa statistik berdasarkan data yang ada. Statistik tes meliputi: tingkat kesukaran butir, daya pembeda dan keefektivan distraktor (pengecoh).

Sedangkan karakteristik tes berupa mean, median, indeks keandalan (reliabilitas) dan kesalahan baku pengukuran (SEM).

Hasil analisis tes dengan pendekatan teori tes klasik menggunakan program ITEMAN disajikan secara lengkap pada lampiran 3.c.

Berdasarkan kriteria pada halaman 34, maka butir pada soal ujian nasional fisika tahun pelajaran 2008/2009 kode A yang dinyatakan mudah sebanyak 35 butir (89,7%), yaitu butir dengan nomor 1, 2, 3, 4, 5, 6, 7, 9, 10, 11,12, 13, 14, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 31, 32, 33 , 35, 36, 37, 39, dan 40. dan yang butir yang dinyatakan sedang sebanyak 5 butir yaitu butir nomor 8, 15, 30, 34, dan 38. Soal yang paling mudah adalah butir nomor 18 dengan tingkat kesukaran 0,985. Sedangkan butir nomor 15 adalah butir paling sukar dengan nilai tingkat kesukaran 0,644. Rerata dari indeks kesukaan adalah 0,836.

Daya beda dalam analisis ini ditentukan oleh besarnya indeks korelasi point biserial (rpbis) dengan batasan kriteria daya beda butir yang baik jika rpbis ≥ 0,30, cukup baik 0,20-0,29 dan kurang baik jika rpbis<0,2. Berdasarkan analisis, maka pada soal kode A terdapat 34 butir dengan daya beda yang baik, dan terdapat 5 butir dengan daya 76

beda yang cukup baik. Daya beda tertinggi adalah 0,542 pada butir nomor 34 dan daya beda terendah adalah 0,220 pada butir nomor 10. Pesebaran jawaban dapat menggambarkan bagaimana pengecoh dalam tiap butir bekerja.

Menurut Fernandes (Djunaedi Lababa, 2008: 29)

141 distraktor dapat dikatakan efektif jika dijawab oleh setidak-tidaknya 2% peserta tes. Menurut data, butir yang memiliki persebaran jawaban yang baik adalah butir 5, 9, 28, 31, dan 35. Pada butir-butir tersebut, setiap pengecohnya dipilih lebih dari 2% peserta tes. Persebaran respon dalam masing-masing opsi jawaban dapat dilihat dari lampiran 3.c.

Pengecoh masih dapat dikatakan bekerja jika masih di jawab oleh peserta tes, walaupun sedikit. Dari hasil analisis, terdapat pengecoh yang tidak dipilih, yaitu opsi B pada butir nomor 30. Baik-tidaknya distraktor butir tes dianalisis untuk mengetahui apakah semua pengecoh atau pilihan jawaban tes berfungsi sebagaimana mestinya. Artinya, apakah pengecoh tersebut telah banyak dipilih oleh peserta tes dengan kemampuan rendah dan sedikit dipilih atau bahkan tidak dipilih oleh peserta dengan kemampuan tinggi. Hal ini dapat dilihat dari rbis dari pengecoh. Pengecoh dikatakan baik jika nilai rbis-nya negatif, dan tidak baik jika nilai rbis-nya positf karena ini berarti pengecoh tersebut dianggap sebagai jawaban benar oleh peserta tes dengan kemampuan tinggi. Dari data hasil analisis, pengecoh butir 18, opsi A memiliki rbis positif, artinya pengecoh ini tidak baik karena justru mengecoh peserta berkemampuan tinggi.

Statistik perangkat tes meliputi rerata, standar deviasi, indeks keandalan, standar kesalahan baku (SEM). Analisis 39 butir soal dengan 464 respon peserta tes menghasilkan data dengan rerata 32,602; median 34, variansi 30,726; simpangan baku 5,543. Nilai maksimum dan minimum data adalah 39 dan 6. Parameter kurva normal berupa skew (kecondongan kurva/

distribusi kurva) -1,2621 dan kurtosis ( tingkat pemuncakan) 2,045. Nilai reliabilitas (dengan konsep koefisien alpha) menunjukkan 0,860 berarti bahwa soal ini sudah reliabel atau handal dalam mengukur kemampuan siswa.

Setelah karakteristik dari butir diketahui maka dapat dilakukan penentuan kualitas butir yang terdapat pada soal Ujian Nasional fisika ini.

Butir yang dinyatakan baik jika memenuhi persyaratan pada tiga kategori, yaitu: tingkat kesukaran, daya beda, dan distribusi respon (keefektivan pengecoh). Aturan penentuan kualitas butir telah dijelaskan dalam bab III.

Dalam penentuan kualitas butir menggunakan teori tes klasik ini, didapatkan sebanyak 3 butir soal dengan kategori baik, yaitu butir nomor 8, 15, dan 34. Sedangkan soal yang dikategorikan sebagai soal yang tidak baik ada 1 butir yaitu nomor 18. Sedangkan 35 butir sisanya adalah butir yang memiliki status butir yang cukup baik. Secara lengkap analisis butir soal kode A dengan pendekatan teori tes klasik dapat dilihat pada lampiran 1.d.

Dari penentuan kualitas butir di atas, maka dapat diketahui jumlah butir yang memiliki kualitas tidak baik. Terdapat satu butir yang dinyatakan tidak baik oleh teori tes klasik, yaitu butir nomor 18 atau juga dapat dinyatakan terdapat 2,5% soal yang tidak baik. Menurut kriteria kualitas tes pada tabel 5, maka menurut analisis dengan teori tes klasik soal Ujian Nasional bidang studi fisika tergolong dalam kategori sangat baik

Analisis kuantitatif dengan pendekatan Teori Respon Butir

Dari program Quest diperoleh beberapa informasi, diantaranya, statistik perangkat tes, tingkat kesukaran butir soal, efektifitas distraktor, kecocokan butir soal dengan model Rasch, estimasi kemampuan siswa, serta peta distribusi kemampuan siswa dengan distribusi kesukaran soal. Berdasarkan hasil statistik perangkat tes dapat diketahui karakteristik perangkat tes secara keseluruhan. Statistik perangkat tes tersebut meliputi rerata skor, standar deviasi, reliabilitas, infit MNSQ, infit t, skor maksimal, skor minimal dan jumlah siswa dengan nilai sempurna dan jumlah siswa dengan nilai 0 (nol).

Butir soal fisika Ujian Nasioanal SMA tahun 2008/2009 Kode A memiliki rerata skor 32,53 dengan simpangan baku (standar deviasi) 5,55. Skor minimun 9,00 dan skor maksimun 39,00. Ini dikarenakan soal nomor 26 tidak memiliki jawaban benar sehingga skor maksimum yang diperoleh hanya 39. Perangkat tes memiliki tingkat reliabilitas yang tinggi yaitu 0,97, yang berarti soal sangat reliabel. Selain itu, soal juga memiliki kecocokan dengan model Rasch. Ini ditunjukkan dengan nilai infit MNSQ 1,00 dan infit t 0,01 atau mendekati 0 (nol). Di mana perangkat tes yang memiliki kesesuaian

142 dengan model Rasch syaratnya harus memiliki infit MNSQ kira-kira satu dan infit t kira-kira nol.

Selain diperoleh informasi mengenai karakteristik perangkat tes, dari program Quest juga diketahui karakterististik tiap butir soal.

Berikut beberapa karakteristik butir soal yang dapat diketahui dari analisis menggunakan program Quest:

Dalam dokumen MEMBANGUN MASYARAKAT MELEK SAINS BERKARAKTER BANGSA MELALUI PEMBELAJARAN (Halaman 139-142)