Topik5.pdf indeks ksukaran dan indeks di

(1)

TAJUK 5

(2)

OBJEKTIF

Diakhir tajuk ini, anda seharusnya dapat:

1. membina dan menilai soalan berdasarkan

Indeks Kesukaran;

2. membina dan menilai soalan berdasarkan

Indeks Diskriminasi;

3. membina dan menilai soalan berdasarkan

Kebolehpercayaan Ujian; dan

(3)

(4)

• Analisis item dan ujian perlu dibuat untuk memastikan item/soalan dan ujian yang dihasilkan itu sesuai digunakan.

• Analisis item membolehkan anda menilai kesesuaian item tersebut dari segi kesukarannya, iaitu sama ada item tersebut terlalu mudah atau terlalu sukar bagi sesuatu kumpulan pelajar.

• Analisis item juga dapat menunjukkan keupayaan sesuatu item itu mengasingkan pelajar pandai daripada pelajar lemah.

• Analisis item, anda digalakkan membuat analisis ujian (satu set item yang dibina) untuk menentukan darjah ketekalan ukuran yang

dihasilkan oleh ujian tersebut dan juga apakah sebenarnya yang diukur oleh ujian ini.

• Analisis-analisis ini akan menghasilkan pekali/indeks yang dinamakan Indeks Kesukaran Item, Indeks Diskriminasi Item, Indeks Kebolehpercayaan, Ujian dan Indeks Kesahan Ujian.

(5)

INDEKS KESUKARAN ITEM

• indeks kesukaran item (item difficulty index) (p). • menunjukkan aras kesukaran sesuatu item, iaitu

sama ada sesuatu item itu mudah dijawab atau susah dijawab.

(6)

Pengiraannya adalah seperti persamaan berikut:

Satu soalan dapat dijawab dengan betul oleh 30 orang pelajar daripada

sejumlah 40 orang pelajar yang menjawab soalan tersebut. Nilai p bagi

soalan ini ialah 30/40 = 0.75.

(7)

(8)

(9)

• Bagi ujian objektif, indeks kesukaran menggambarkan peratusan pelajar yang menjawab sesuatu item dengan betul. Lagi tinggi peratusan pelajar menjawab sesuatu item dengan betul, lagi mudahlah item tersebut (Wood, 1960).

• Item yang dijawab dengan betul oleh 85% , pelajar akan mempunyai nilai p = 0.85, manakala item yang dijawab dengan betul oleh 50% pelajar akan mempunyai

nilai p = 0.50.

(10)

• Bagi item subjektif (esei); yang markahnya

mengambil nilai 0, 1, 2, 3, …; indeks

kesukarannya boleh dikira sebagai

nisbah markah purata (markah min)

kepada julat markah penuh seperti

(11)

• Contoh:

suatu item ujian esei berjawapan pendek

diberi markah minimum 0 dan maksimum

10. Sepuluh (10) orang pelajar (P) telah

menjawab soalan ini dan mendapat

markah seperti dalam jadual di bawah.

(12)

(13)

Panduan Indeks Kesukaran

• Indeks kesukaran item yang dapat menghasilkan indeks diskriminasi item yang maksimum ialah antara 0.50 hingga 0.85, bergantung kepada format item.

• Indeks kesukaran tersebut ialah

0.50 bagi item berjawapan pendek/melengkap, 0.70 bagi item objektif lima-opsyen,

0.74 bagi item objektif empat-opsyen, 0.77 bagi item objektif tiga-opsyen, dan

0.85 bagi item objektif dua-opsyen (betul/salah)

[Lord (1952) dalam Mehrens & Lehmann (1991)].

• Indeks kesukaran bagi item-item ujian yang mengukur satu jenis keupayaan (contohnya, membaca) haruslah antara

0.16 dan 0.84 (item-item mudah, sederhana sukar dan sukar);

0.40 hingga 0.60 (item-item sederhana sukar) bagi item-item ujian yang mengukur dua jenis keupayaan (contohnya, membaca dan menulis)

(14)

(15)

INDEKS DISKRIMINASI ITEM

• Item/soalan yang baik akan dapat

membezakan/mendiskriminasikan antara

mereka yang berkeupayaan rendah dan

yang berkeupayaan tinggi.

• Indeks yang diguna untuk menentukan

perbezaan keupayaan pelajar ini ialah

indeks diskriminasi item.

(16)

Langkah Indeks Diskriminasi

(1) Membahagikan pelajar kepada tiga (3)

kumpulan, iaitu pelajar berpencapaian rendah (27% pelajar berpencapaian terrendah), pelajar berpencapaian sederhana (46% pelajar

berpencapaian antara terendah dan tertinggi) dan pelajar berpencapaian tinggi (27%

pelajar berpencapaian tertinggi).

(2) Mengira bilangan pelajar yang menjawab

dengan betul di kalangan pelajar berpencapaian rendah (RL – Right Lower), bilangan pelajar

yang menjawab dengan betul di kalangan

pelajar berpencapaian tinggi (RU – Right Upper) dan jumlah pelajar berpencapaian rendah

(17)

Indeks Diskriminasi boleh dikira dengan membahagikan perbezaan (RU – RL)

(18)

Contoh, andaikan seramai 200 orang pelajar

menjawab soalan tertentu. Setelah 54 orang (27% daripada 200) pelajar berpencapaian tinggi

dikenalpasti, didapati 45 orang daripada mereka

dapat menjawab soalan tersebut dengan betul (RU = 45).

Seterusnya, daripada 54 orang pelajar

berpencapaian rendah, seramai 15 orang dapat menjawab dengan betul (RL = 15).

(19)

(20)

(21)

• Soalan-soalan yang dibina oleh guru hanya mempunyai Indeks Kesukaran antara 0.00 hingga 0.50. [Hanna dan Dettmer (2004: 252) ]

• Indeks Diskriminasi untuk soalan-soalan ujian di bilik

darjah perlu melebihi 0.20, sekiranya pencapaian pelajar dibahagikan kepada dua (separuh berpencapaian

rendah, separuh berpencapaian tinggi). Indeks ini

sepatutnya lebih tinggi daripada 0.20, sekiranya pelajar dibahagikan kepada 27% berpencapaian rendah dan 27% berpencapaian tingggi. [Mehrens dan Lehmann (1991) ]

• Item yang boleh dipilih untuk sesuatu ujian hendaklah mempunyai Indeks Diskriminasi melebihi 0.30. [Nitko (2004: 323) ]

Justeru, sebagai kesimpulan, item/soalan yang baik untuk sesuatu ujian perlu mempunyai Indeks

(22)

(23)

KEBOLEHPERCAYAAN UJIAN

• Kebolehpercayaan (reliability) sesuatu alat

ukuran bermaksud ketekalan

ukuran-ukuran (consistency of measures) yang

dihasilkan oleh alat tersebut (Hanna &

Dettmer, 2004).

• Justeru, kebolehpercayaan ujian

(24)

• Darjah ketekalan ukuran-ukuran boleh

ditentukan dalam pelbagai keadaan, misalnya,

• apabila ujian yang sama diambil oleh pelajar kali kedua,

• ujian yang sama ditadbirkan oleh guru lain,

• ujian yang sama diambil oleh pelajar pada waktu yang berbeza (pagi/petang),

• jawapan kepada ujian yang sama diperiksa oleh pemeriksa yang berbeza.

• Ujian yang baik/sesuai adalah ujian yang mempunyai darjah ketekalan (degree of

consistency) yang tinggi, iaitu markah/skor yang

(25)

Indeks Kebolehpercayaan

• pekali/indeks kebolehpercayaan boleh dikira/dianggar (compute/estimate) dengan menggunakan pekali

korelasi antara dua (2) ukuran yang boleh dikira menggunakan pelbagai kaedah.

• Julat pekali korelasi, julat indeks kebolehpercayan juga adalah antara -1.00 hingga + 1.00.

• Indeks kebolehpercayaan negatif menunjukkan

ketekalan yang songsang, iaitu pelajar yang mendapat skor tinggi dalam ujian kali pertama akan mendapat skor yang rendah dalam ujian kali kedua, dan sebaliknya.

(26)

(27)

(28)

Ukuran Kestabilan

• Ukuran Kestabilan, yang juga dipanggil

“anggaran kebolehpercayaan uji-uji

semula” (test-restest estimate of reliability)

boleh dikira dengan memberikan ujian

yang sama sekali lagi kepada kumpulan

pelajar yang sama selepas ujian pertama

ditadbirkan, dan seterusnya, mengira

pekali korelasi Pearson antara

(29)

di mana: ialah jumlah,

xi ialah skor ujian kali pertama, yi ialah ujian kali kedua,

x ialah min skor ujian kali pertama, y ialah min skor ujian kali kedua,

n ialah bilangan pelajar,

(30)

Ukuran Kesetaraan

• Ukuran Kesetaraan [atau Ukuran

Keselarian (parallel)] dikira dengan

memberikan dua (2) ujian yang berbeza

tapi setara (kesamaan dari segi

kandungan, Jadual Spesifikasi Ujian,

format soalan dan arahan menjawab serta

min, varians dan interkorelasi skor)

(31)

Ukuran Kesetaraan dan Kestabilan

• Ukuran Kesetaraan dan Kestabilan ini akan

memberikan tahap keyakinan kepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar, sekiranya mereka diberi ujian yang

setara pada masa yang berlainan.

• Ujian jenis ini akan menghapuskan kesan hafalan jawapan atau kesan latih-tubi soalan

ujian pertama terhadap jawapan ujian kedua, di samping menilai pencapaian pelajar selepas

(32)

Ukuran Ketekalan Dalaman

• Ukuran Ketekalan Dalaman Belah-Dua ini

adalah hampir sama dengan Ukuran Ketekalan Kesetaraan, yang menggambarkan kesetaraan antara dua ujian yang berbeza.

• Kaedah-kaedah lain yang digunakan untuk mengukur ketekalan dalam ujian ialah kaedah Kuder-Richardson dan kaedah Cronbach.

• Kedua-dua kaedah ini juga menggunakan sekali ujian sahaja dan ukuran ketekalan dalamannya menggambarkan darjah keseragaman

(homogeneity) antara item dalam sesuatu ujian, iaitu menunjukkan hubungan/korelasi antara

(33)

Ukuran Ketekalan Dalaman Belah-Dua

• Ukuran Ketekalan Dalaman Belah-Dua (r

½½) boleh dikira dengan menggunakan

(34)

Ukuran Ketekalan Dalaman Belah-Dua (r ½½)

di mana: ialah jumlah,

xi ialah skor separuh pertama ujian, yi ialah skor separuh kedua ujian;

x ialah min skor separuh pertama ujian, y ialah min skor separuh kedua ujian; n ialah bilangan pelajar,

(35)

Kaedah Kuder-Richardson

• Dua (2) kaedah Kuder-Richardson yang

digunakan untuk mengira Ukuran Ketekalan Dalaman bagi item yang berjawapan dikotomi (betul/salah),

• iaitu K-R 20 dan K-R 21. K-R 20 digunakan sekiranya Indeks Kesukaran Item (p) berbeza bagi semua item, dan K-R 21 digunakan

sekiranya indeks ini sama bagi semua item. • Bagaimanapun, rumus K-R 21 adalah lebih

(36)

Kaedah Kuder-Richardson

di mana:

k ialah bilangan item dalam ujian,

p ialah kadar pelajar yang menjawab item dengan betul (Indeks

Kesukaran Item),

q ialah kadar pelajar yang salah menjawab item (q= 1-p, pq adalah

varians skor item),

x ialah min skor keseluruhanitem dan

(37)

Kaedah Cronbach

• Cronbach (1951) telah menggunakan pekali alfa sebagai Ukuran Ketekalan Dalaman.

• Kaedah ini ialah lanjutan kepada K-R 20 bagi item-item yang bukan berjawapan dikotomi. Rumus bagi pekali alfa adalah sama seperti rumus bagi K-R 20, kecuali pq diganti dengan

Si2, iaitu varians bagi skor item.

• Pekali alfa adalah amat berguna bagi item yang bukan berjawapan dikotomi, terutama item

(38)

Kebolehpercayaan Pemeriksa

• Kebolehpercayaan pemeriksa bermaksud

ketekalan ukuran/skor yang diberikan oleh

dua atau lebih pemeriksa apabila

memeriksa kertas jawapan yang sama.

• Kebolehpercayaan ini tidak diperlukan

bagi ujian berbentuk objektif, sebab

jawapan kepada setiap soalan dalam ujian

bentuk ini adalah sama, iaitu perbezaan

(39)

Faktor yang Mempengaruhi Kebolehpercayaan

• Panjang Ujian

• Kehomogenan Kumpulan • Kesukaran Item

(40)

KESAHAN UJIAN

• Kesahan sesuatu alat ukuran bermaksud

sejauh mana alat tersebut dapat

mengukur apa yang sepatutnya diukur

oleh alat tersebut (Hanna & Dettmer,

2004).

• Justeru, ciri kesahan bagi sesuatu alat

ukuran adalah amat penting supaya alat

(41)

• Misalnya, sesuatu alat yang dibina untuk mengukur sikap, hendaklah berupaya mengukur sikap, dan

bukannya konstruk lain, seperti minat atau motivasi.

• Perlu diingatkan bahawa sesuatu alat ukuran itu tidak semestinya memiliki kesahan untuk semua tujuan, tetapi memiliki kesahan untuk tujuan tertentu sahaja.

Contohnya, ujian yang digunakan untuk tujuan diagnosis adalah tidak sah digunakan untuk tujuan penggredan.

Dalam bidang bahasa, misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur kebolehan

(42)

(43)

Kesahan Kandungan

• Kesahan kandungan merujuk kepada sejauh mana sesuatu alat ukuran itu mencakupi

kandungan pelajaran yang telah ditetapkan.

• Kesahan kandungan adalah penting, terutama bagi ujian pencapaian, sebab markah yang

diperolehi pelajar akan menunjukkan tahap pencapaian pelajar tersebut bagi kandungan pelajaran tertentu.

• Sekiranya soalan ujian tidak meliputi

secukupnya kandungan pelajaran tersebut,

(44)

Kesahan Konstruk

• Kesahan konstruk/gagasan merujuk

kepada sejauh mana sesuatu alat ukuran

itu dapat mengukur sesuatu

(45)

Kesahan Muka

• lebih kepada sesuatu alat ukuran “nampak

pada permukaannya” mempunyai kesahan

yang tinggi. Ini bermaksud, sekali

pandang, nampak alat ukuran itu sah, atau

orang biasa/tidak terlatih nampak alat ini

(46)

Kesahan Hubungan-Kriteria

• Kesahan hubungan-kriteria merujuk

kepada sejauh mana sesuatu alat ukuran

itu dapat menghasilkan skor yang

(47)

Kesahan Serentak

• Kesahan serentak merujuk kepada sejauh

mana sesuatu alat ukuran itu dapat

menghasilkan skor yang mempunyai

(48)

Kesahan Ramalan

• Kesahan ramalan merujuk kepada sejauh

mana sesuatu alat ukuran itu dapat

menghasilkan skor yang mempunyai

(49)

Kaedah Mengira Indeks Kesahan

• Daripada lima kesahan ujian yang dibincangkan, kesahan kandungan dan kesahan muka tidak

dapat diukur/dijelas dengan menggunakan

indeks kesahan, Kedua-dua kesahan ini dapat dijelaskan secara kualitatif sahaja.

• Bagaimanapun, kesahan konstruk, kesahan serentak dan kesahan ramalan boleh diukur

(50)

• Kesahan ramalan, selain menggunakan pekali korelasi untuk mengukur darjah kesahan,

persamaan regresi boleh digunakan untuk meramal skor kriteria.

• Contohnya, skor ujian pertama (x) mempunyai hubungan dengan skor ujian kedua (y) yang

menghasilkan persamaan regresi y = ax + b, di mana a dan b ialah angkatap (constant).

(51)

• Alfa Cronbach Indeks untuk megukur

ketakalan dalaman/keseragaman

item/soalan yang bukan berjawapan

dikotomi.

• Indeks Kesukaran Indeks untuk

(52)

• Indeks Diskriminasi Indeks yang

dihasilkan oleh sesuatu item untuk

(53)

• Indeks Kebolehpercayaan

Indeks untuk mengukur ketekalan

ukuran-ukuran yang dihasilkan oleh sesuatu alat

ukuran, yang boleh dikira menggunakan

(54)

• Indeks Kesahan

(55)

• Kesahan Konstruk Kesahan dari segi sejauh mana sesuatu ujian dapat mengukur sesuatu konstruk tertentu.

• Kesahan Kandungan Kesahan dari segi sejauh mana sesuatu ujian mewakili

kandungan/sukatan pelajaran yang telah diajar. • Kesahan Kriteria Kesahan dari segi sejauh

mana sesuatu ujian mempunyai hubungan

dengan ujian lain, sama ada yang ditadbirkan secara serentak atau kemudian.