TAJUK 5
OBJEKTIF
Diakhir tajuk ini, anda seharusnya dapat:
1. membina dan menilai soalan berdasarkan
Indeks Kesukaran;
2. membina dan menilai soalan berdasarkan
Indeks Diskriminasi;
3. membina dan menilai soalan berdasarkan
Kebolehpercayaan Ujian; dan
• Analisis item dan ujian perlu dibuat untuk memastikan item/soalan dan ujian yang dihasilkan itu sesuai digunakan.
• Analisis item membolehkan anda menilai kesesuaian item tersebut dari segi kesukarannya, iaitu sama ada item tersebut terlalu mudah atau terlalu sukar bagi sesuatu kumpulan pelajar.
• Analisis item juga dapat menunjukkan keupayaan sesuatu item itu mengasingkan pelajar pandai daripada pelajar lemah.
• Analisis item, anda digalakkan membuat analisis ujian (satu set item yang dibina) untuk menentukan darjah ketekalan ukuran yang
dihasilkan oleh ujian tersebut dan juga apakah sebenarnya yang diukur oleh ujian ini.
• Analisis-analisis ini akan menghasilkan pekali/indeks yang dinamakan Indeks Kesukaran Item, Indeks Diskriminasi Item, Indeks Kebolehpercayaan, Ujian dan Indeks Kesahan Ujian.
INDEKS KESUKARAN ITEM
• indeks kesukaran item (item difficulty index) (p). • menunjukkan aras kesukaran sesuatu item, iaitu
sama ada sesuatu item itu mudah dijawab atau susah dijawab.
Pengiraannya adalah seperti persamaan berikut:
Satu soalan dapat dijawab dengan betul oleh 30 orang pelajar daripada
sejumlah 40 orang pelajar yang menjawab soalan tersebut. Nilai p bagi
soalan ini ialah 30/40 = 0.75.
• Bagi ujian objektif, indeks kesukaran menggambarkan peratusan pelajar yang menjawab sesuatu item dengan betul. Lagi tinggi peratusan pelajar menjawab sesuatu item dengan betul, lagi mudahlah item tersebut (Wood, 1960).
• Item yang dijawab dengan betul oleh 85% , pelajar akan mempunyai nilai p = 0.85, manakala item yang dijawab dengan betul oleh 50% pelajar akan mempunyai
nilai p = 0.50.
• Bagi item subjektif (esei); yang markahnya
mengambil nilai 0, 1, 2, 3, …; indeks
kesukarannya boleh dikira sebagai
nisbah markah purata (markah min)
kepada julat markah penuh seperti
• Contoh:
suatu item ujian esei berjawapan pendek
diberi markah minimum 0 dan maksimum
10. Sepuluh (10) orang pelajar (P) telah
menjawab soalan ini dan mendapat
markah seperti dalam jadual di bawah.
Panduan Indeks Kesukaran
• Indeks kesukaran item yang dapat menghasilkan indeks diskriminasi item yang maksimum ialah antara 0.50 hingga 0.85, bergantung kepada format item.
• Indeks kesukaran tersebut ialah
0.50 bagi item berjawapan pendek/melengkap, 0.70 bagi item objektif lima-opsyen,
0.74 bagi item objektif empat-opsyen, 0.77 bagi item objektif tiga-opsyen, dan
0.85 bagi item objektif dua-opsyen (betul/salah)
[Lord (1952) dalam Mehrens & Lehmann (1991)].
• Indeks kesukaran bagi item-item ujian yang mengukur satu jenis keupayaan (contohnya, membaca) haruslah antara
0.16 dan 0.84 (item-item mudah, sederhana sukar dan sukar);
0.40 hingga 0.60 (item-item sederhana sukar) bagi item-item ujian yang mengukur dua jenis keupayaan (contohnya, membaca dan menulis)
INDEKS DISKRIMINASI ITEM
• Item/soalan yang baik akan dapat
membezakan/mendiskriminasikan antara
mereka yang berkeupayaan rendah dan
yang berkeupayaan tinggi.
• Indeks yang diguna untuk menentukan
perbezaan keupayaan pelajar ini ialah
indeks diskriminasi item.
Langkah Indeks Diskriminasi
(1) Membahagikan pelajar kepada tiga (3)
kumpulan, iaitu pelajar berpencapaian rendah (27% pelajar berpencapaian terrendah), pelajar berpencapaian sederhana (46% pelajar
berpencapaian antara terendah dan tertinggi) dan pelajar berpencapaian tinggi (27%
pelajar berpencapaian tertinggi).
(2) Mengira bilangan pelajar yang menjawab
dengan betul di kalangan pelajar berpencapaian rendah (RL – Right Lower), bilangan pelajar
yang menjawab dengan betul di kalangan
pelajar berpencapaian tinggi (RU – Right Upper) dan jumlah pelajar berpencapaian rendah
Indeks Diskriminasi boleh dikira dengan membahagikan perbezaan (RU – RL)
Contoh, andaikan seramai 200 orang pelajar
menjawab soalan tertentu. Setelah 54 orang (27% daripada 200) pelajar berpencapaian tinggi
dikenalpasti, didapati 45 orang daripada mereka
dapat menjawab soalan tersebut dengan betul (RU = 45).
Seterusnya, daripada 54 orang pelajar
berpencapaian rendah, seramai 15 orang dapat menjawab dengan betul (RL = 15).
• Soalan-soalan yang dibina oleh guru hanya mempunyai Indeks Kesukaran antara 0.00 hingga 0.50. [Hanna dan Dettmer (2004: 252) ]
• Indeks Diskriminasi untuk soalan-soalan ujian di bilik
darjah perlu melebihi 0.20, sekiranya pencapaian pelajar dibahagikan kepada dua (separuh berpencapaian
rendah, separuh berpencapaian tinggi). Indeks ini
sepatutnya lebih tinggi daripada 0.20, sekiranya pelajar dibahagikan kepada 27% berpencapaian rendah dan 27% berpencapaian tingggi. [Mehrens dan Lehmann (1991) ]
• Item yang boleh dipilih untuk sesuatu ujian hendaklah mempunyai Indeks Diskriminasi melebihi 0.30. [Nitko (2004: 323) ]
Justeru, sebagai kesimpulan, item/soalan yang baik untuk sesuatu ujian perlu mempunyai Indeks
KEBOLEHPERCAYAAN UJIAN
• Kebolehpercayaan (reliability) sesuatu alat
ukuran bermaksud ketekalan
ukuran-ukuran (consistency of measures) yang
dihasilkan oleh alat tersebut (Hanna &
Dettmer, 2004).
• Justeru, kebolehpercayaan ujian
• Darjah ketekalan ukuran-ukuran boleh
ditentukan dalam pelbagai keadaan, misalnya,
• apabila ujian yang sama diambil oleh pelajar kali kedua,
• ujian yang sama ditadbirkan oleh guru lain,
• ujian yang sama diambil oleh pelajar pada waktu yang berbeza (pagi/petang),
• jawapan kepada ujian yang sama diperiksa oleh pemeriksa yang berbeza.
• Ujian yang baik/sesuai adalah ujian yang mempunyai darjah ketekalan (degree of
consistency) yang tinggi, iaitu markah/skor yang
Indeks Kebolehpercayaan
• pekali/indeks kebolehpercayaan boleh dikira/dianggar (compute/estimate) dengan menggunakan pekali
korelasi antara dua (2) ukuran yang boleh dikira menggunakan pelbagai kaedah.
• Julat pekali korelasi, julat indeks kebolehpercayan juga adalah antara -1.00 hingga + 1.00.
• Indeks kebolehpercayaan negatif menunjukkan
ketekalan yang songsang, iaitu pelajar yang mendapat skor tinggi dalam ujian kali pertama akan mendapat skor yang rendah dalam ujian kali kedua, dan sebaliknya.
Ukuran Kestabilan
• Ukuran Kestabilan, yang juga dipanggil
“anggaran kebolehpercayaan uji-uji
semula” (test-restest estimate of reliability)
boleh dikira dengan memberikan ujian
yang sama sekali lagi kepada kumpulan
pelajar yang sama selepas ujian pertama
ditadbirkan, dan seterusnya, mengira
pekali korelasi Pearson antara
di mana: ialah jumlah,
xi ialah skor ujian kali pertama, yi ialah ujian kali kedua,
x ialah min skor ujian kali pertama, y ialah min skor ujian kali kedua,
n ialah bilangan pelajar,
Ukuran Kesetaraan
• Ukuran Kesetaraan [atau Ukuran
Keselarian (parallel)] dikira dengan
memberikan dua (2) ujian yang berbeza
tapi setara (kesamaan dari segi
kandungan, Jadual Spesifikasi Ujian,
format soalan dan arahan menjawab serta
min, varians dan interkorelasi skor)
Ukuran Kesetaraan dan Kestabilan
• Ukuran Kesetaraan dan Kestabilan ini akan
memberikan tahap keyakinan kepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar, sekiranya mereka diberi ujian yang
setara pada masa yang berlainan.
• Ujian jenis ini akan menghapuskan kesan hafalan jawapan atau kesan latih-tubi soalan
ujian pertama terhadap jawapan ujian kedua, di samping menilai pencapaian pelajar selepas
Ukuran Ketekalan Dalaman
• Ukuran Ketekalan Dalaman Belah-Dua ini
adalah hampir sama dengan Ukuran Ketekalan Kesetaraan, yang menggambarkan kesetaraan antara dua ujian yang berbeza.
• Kaedah-kaedah lain yang digunakan untuk mengukur ketekalan dalam ujian ialah kaedah Kuder-Richardson dan kaedah Cronbach.
• Kedua-dua kaedah ini juga menggunakan sekali ujian sahaja dan ukuran ketekalan dalamannya menggambarkan darjah keseragaman
(homogeneity) antara item dalam sesuatu ujian, iaitu menunjukkan hubungan/korelasi antara
Ukuran Ketekalan Dalaman Belah-Dua
• Ukuran Ketekalan Dalaman Belah-Dua (r
½½) boleh dikira dengan menggunakan
Ukuran Ketekalan Dalaman Belah-Dua (r ½½)
di mana: ialah jumlah,
xi ialah skor separuh pertama ujian, yi ialah skor separuh kedua ujian;
x ialah min skor separuh pertama ujian, y ialah min skor separuh kedua ujian; n ialah bilangan pelajar,
Kaedah Kuder-Richardson
• Dua (2) kaedah Kuder-Richardson yang
digunakan untuk mengira Ukuran Ketekalan Dalaman bagi item yang berjawapan dikotomi (betul/salah),
• iaitu K-R 20 dan K-R 21. K-R 20 digunakan sekiranya Indeks Kesukaran Item (p) berbeza bagi semua item, dan K-R 21 digunakan
sekiranya indeks ini sama bagi semua item. • Bagaimanapun, rumus K-R 21 adalah lebih
Kaedah Kuder-Richardson
di mana:
k ialah bilangan item dalam ujian,
p ialah kadar pelajar yang menjawab item dengan betul (Indeks
Kesukaran Item),
q ialah kadar pelajar yang salah menjawab item (q= 1-p, pq adalah
varians skor item),
x ialah min skor keseluruhanitem dan
Kaedah Cronbach
• Cronbach (1951) telah menggunakan pekali alfa sebagai Ukuran Ketekalan Dalaman.
• Kaedah ini ialah lanjutan kepada K-R 20 bagi item-item yang bukan berjawapan dikotomi. Rumus bagi pekali alfa adalah sama seperti rumus bagi K-R 20, kecuali pq diganti dengan
Si2, iaitu varians bagi skor item.
• Pekali alfa adalah amat berguna bagi item yang bukan berjawapan dikotomi, terutama item
Kebolehpercayaan Pemeriksa
• Kebolehpercayaan pemeriksa bermaksud
ketekalan ukuran/skor yang diberikan oleh
dua atau lebih pemeriksa apabila
memeriksa kertas jawapan yang sama.
• Kebolehpercayaan ini tidak diperlukan
bagi ujian berbentuk objektif, sebab
jawapan kepada setiap soalan dalam ujian
bentuk ini adalah sama, iaitu perbezaan
Faktor yang Mempengaruhi Kebolehpercayaan
• Panjang Ujian
• Kehomogenan Kumpulan • Kesukaran Item
KESAHAN UJIAN
• Kesahan sesuatu alat ukuran bermaksud
sejauh mana alat tersebut dapat
mengukur apa yang sepatutnya diukur
oleh alat tersebut (Hanna & Dettmer,
2004).
• Justeru, ciri kesahan bagi sesuatu alat
ukuran adalah amat penting supaya alat
• Misalnya, sesuatu alat yang dibina untuk mengukur sikap, hendaklah berupaya mengukur sikap, dan
bukannya konstruk lain, seperti minat atau motivasi.
• Perlu diingatkan bahawa sesuatu alat ukuran itu tidak semestinya memiliki kesahan untuk semua tujuan, tetapi memiliki kesahan untuk tujuan tertentu sahaja.
Contohnya, ujian yang digunakan untuk tujuan diagnosis adalah tidak sah digunakan untuk tujuan penggredan.
Dalam bidang bahasa, misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur kebolehan
Kesahan Kandungan
• Kesahan kandungan merujuk kepada sejauh mana sesuatu alat ukuran itu mencakupi
kandungan pelajaran yang telah ditetapkan.
• Kesahan kandungan adalah penting, terutama bagi ujian pencapaian, sebab markah yang
diperolehi pelajar akan menunjukkan tahap pencapaian pelajar tersebut bagi kandungan pelajaran tertentu.
• Sekiranya soalan ujian tidak meliputi
secukupnya kandungan pelajaran tersebut,
Kesahan Konstruk
• Kesahan konstruk/gagasan merujuk
kepada sejauh mana sesuatu alat ukuran
itu dapat mengukur sesuatu
Kesahan Muka
• lebih kepada sesuatu alat ukuran “nampak
pada permukaannya” mempunyai kesahan
yang tinggi. Ini bermaksud, sekali
pandang, nampak alat ukuran itu sah, atau
orang biasa/tidak terlatih nampak alat ini
Kesahan Hubungan-Kriteria
• Kesahan hubungan-kriteria merujuk
kepada sejauh mana sesuatu alat ukuran
itu dapat menghasilkan skor yang
Kesahan Serentak
• Kesahan serentak merujuk kepada sejauh
mana sesuatu alat ukuran itu dapat
menghasilkan skor yang mempunyai
Kesahan Ramalan
• Kesahan ramalan merujuk kepada sejauh
mana sesuatu alat ukuran itu dapat
menghasilkan skor yang mempunyai
Kaedah Mengira Indeks Kesahan
• Daripada lima kesahan ujian yang dibincangkan, kesahan kandungan dan kesahan muka tidak
dapat diukur/dijelas dengan menggunakan
indeks kesahan, Kedua-dua kesahan ini dapat dijelaskan secara kualitatif sahaja.
• Bagaimanapun, kesahan konstruk, kesahan serentak dan kesahan ramalan boleh diukur
• Kesahan ramalan, selain menggunakan pekali korelasi untuk mengukur darjah kesahan,
persamaan regresi boleh digunakan untuk meramal skor kriteria.
• Contohnya, skor ujian pertama (x) mempunyai hubungan dengan skor ujian kedua (y) yang
menghasilkan persamaan regresi y = ax + b, di mana a dan b ialah angkatap (constant).
• Alfa Cronbach Indeks untuk megukur
ketakalan dalaman/keseragaman
item/soalan yang bukan berjawapan
dikotomi.
• Indeks Kesukaran Indeks untuk
• Indeks Diskriminasi Indeks yang
dihasilkan oleh sesuatu item untuk
• Indeks Kebolehpercayaan
Indeks untuk mengukur ketekalan
ukuran-ukuran yang dihasilkan oleh sesuatu alat
ukuran, yang boleh dikira menggunakan
• Indeks Kesahan
• Kesahan Konstruk Kesahan dari segi sejauh mana sesuatu ujian dapat mengukur sesuatu konstruk tertentu.
• Kesahan Kandungan Kesahan dari segi sejauh mana sesuatu ujian mewakili
kandungan/sukatan pelajaran yang telah diajar. • Kesahan Kriteria Kesahan dari segi sejauh
mana sesuatu ujian mempunyai hubungan
dengan ujian lain, sama ada yang ditadbirkan secara serentak atau kemudian.