• Tidak ada hasil yang ditemukan

Item response theory (Rasch model)

Dalam dokumen FACTOR ANALYSIS (Halaman 52-59)

BAB 2 KAJIAN PUSTAKA .............................................................................. 13-52

2.3 Teori – Teori Pengukuran

2.3.2 Item response theory (Rasch model)

sebuah item menjadi tinggi ketika distraktor yang disediakan jumlahnya sedikit. Sebagai catatan, tingkat kesukaran sangat dipengaruhi oleh kualitas dari distraktor. Item pilihan ganda yang baik syaratnya adalah (a) jawaban benar dapat dijawab oleh yang mengetahui jawabannya dan (b) distraktor muncul sebagai pilihan yang nyaris masuk akal bagi yang tidak mengetahui jawabannya. Jika masih dalam tahap pengembangan, distraktor yang tidak berfungsi dengan baik, misalnya distraktor yang tidak satu pun dari peserta tes yang memilihnya atau distraktor yang sering dipilih oleh peserta tes yang berkemampuan tinggi harus diganti (Urbina, 2014).

psikometri yang bernama Benjamin Wright yang pada akhirnya mengajarkan prinsip-prinsip pengukuran Rasch model di Amerika Serikat (Embretson & Reise, 2000).

Rasch mengunjungi University of Chicago dimana Wright adalah profesor di departemen pendidikan, disana ia memberikan serangkaian perkuliahan tentang prinsip pengukuran Rasch model. Karena hal tersebut, banyak sekali mahasiswa doktoral tertarik untuk mendalami Rasch model di bawah bimbingan Wright.

Beberapa mahasiswa doktoral yang pada akhirnya memberikan kontribusi untuk perkembangan Rasch model adalah Graham Douglas (1977), David Andrich (1978), Geoffrey Masters (1982), dan Mark Wilson (1989) (Embretson & Reise, 2000).

Setelah penyebaran IRT yang menjadi semakin populer pada akhir tahun 1970, dunia pengukuran dan konstruksi alat tes berubah secara dramatis.

Meskipun CTT telah menjadi acuan pengembangan tes selama beberapa dekade terakhir, IRT dengan cepat menjadi arus utama dalam basis teori dunia pengukuran dan pengembangan tes. Terlebih, tes-tes yang dikembangkan melalui pendekatan IRT lebih terstandarisasi, karena secara teoritis prinsip-prinsip pengukurannya dapat diuji dan memiliki peluang lebih besar menyelesaikan masalah-masalah dalam dunia pengukuran yang tidak mampu diselesaikan oleh classical test theory (Embretson & Reise, 2000).

Menurut Hambleton, Swaminathan dan Rogers (1991) IRT berlandaskan atas dua postulat, yaitu:

1. Performa dari individu dalam menempuh sebuah item tes dapat diprediksi atau dijelaskan oleh sebuah faktor yang disebut traits, latent traits, atau kemampuan (ability).

2. Hubungan antara performa penempuh tes pada suatu item dengan traits yang mendasari performa item dapat digambarkan dengan fungsi yang terus menanjak secara monotonik yang disebut item characteristic curve (ICC).

Sebelum melakukan analisis terhadap item menggunakan Rasch Model, ada sejumlah asumsi yang harus dipenuhi terlebih dahulu oleh pembuat tes. Menurut Hambleton et al. (1991) asumsi tersebut adalah sebagai berikut:

1. Asumsi unidimensionality, artinya bahwa item-item yang akan dianalisis hanya mengukur satu traits, ability, atau latent traits.

2. Asumsi local independent, artinya peluang individu untuk menjawab benar suatu item tidak dipengaruhi oleh jawaban item sebelumnya.

Setelah asumsi dasar terpenuhi, maka peneliti dapat melakukan analisis terhadap item. Menurut Embretson & Reise (2000) bentuk yang paling umum dari IRT adalah model satu parameter logistik. Esensi dari Rasch model dapat dijelaskan melalui persamaan berikut:

Gambar 2.1 Persamaan ICC pada rasch model (Sumber: Embretson & Reise, 2000)

Keterangan:

Θ = Kemampuan/ability β = Tingkat kesukaran item

Hayat (1994) menyatakan berdasarkan penjabaran persamaan di atas dapat dipahami bahwa “peluang individu untuk menjawab dengan benar pada sebuah item ditentukan oleh hasil interaksi antara kemampuan (ability) dengan tingkat kesukaran item (item difficulty)”. Secara sederhana dapat dipahami bahwa peluang menjawab benar individu pada sebuah item dapat digambarkan melalui selisih jarak antara kemampuan dengan tingkat kesukaran item. Penjelasan lebih lanjut adalah sebagai berikut:

1. Jika Θ > β (kemampuan > tingkat kesukaran), maka peluang individu untuk mendapat jawaban benar pada item tersebut adalah > 0,5 atau di atas 50%.

2. Jika Θ < β (kemampuan < tingkat kesukaran), maka peluang individu untuk mendapat jawaban benar pada item tersebut adalah < 0,5 atau di bawah 50%.

3. Jika Θ = β (kemampuan = tingkat kesukaran), maka peluang individu untuk mendapat jawaban benar pada item tersebut adalah = 0,5 atau sama dengan 50%.

Sebuah tes dirancang bertujuan untuk mengukur suatu atribut, kemampuan atau traits tertentu pada individu, misalnya kemampuan verbal, inteligensi, atau konstruk lainnya. Semakin individu memiliki kemampuan atau atribut tersebut, maka semakin tinggi pula seharusnya peluang individu untuk menjawab dengan benar item-item pada tes. Untuk dapat lebih memahami logika di dalam IRT ini, akan lebih mudah apabila peneliti memahami konsep dasar yang disebut item

characteristic curve (ICC). ICC merupakan rangkuman secara visual berbagai konsep penting dalam IRT, seperti parameter tingkat kesukaran, daya pembeda, dan peluang individu menjawab dengan benar karena menebak (guessing) (Murphy & Davidshofer, 1994).

Memahami konsep IRT melalui ICC jauh akan lebih mudah dibandingkan dengan melalui cara menghitung dan mengestimasi seluruh nilai parameter tersebut. Karena untuk mendapatkan nilai seluruh parameter pada IRT membutuhkan analisis matematika dengan besaran sampel besar dan algoritma komputer modern. Namun dengan memahami ICC, pengembang tes dapat memahami peluang individu untuk memilih jawaban yang benar pada sebuah item merupakan sebuah fungsi dari seberapa tinggi kemampuan atau atribut yang dimiliki individu tersebut (Murphy & Davidshofer, 1994). Berikut ini pada gambar 2.2 adalah visualisasi dari ICC.

Gambar 2.2 Ilustrasi item characteristic curve (Sumber: Embretson & Reise, 2000)

Gambar 2.3 berikut ini adalah contoh ICC item yang baik pada sebuah tes kemampuan (ability). Secara teoritis grafik ICC di bawah ini menunjukan peluang

individu untuk menjawab dengan benar pada sebuah item ditentukan tinggi rendahnya kemampuan individu tersebut. Semakin kemampuan meningkat, peluang individu untuk menjawab dengan benar meningkat secara dramatis. Hasil ICC seperti ini menunjukan bahwa item-item tersebut sangat baik dalam mengukur atribut atau kemampuan yang dimaksud.

Gambar 2.3 Item characteristic curve pada item yang baik (using M-Plus) Jika item pada sebuah tes tidak memiliki kemampuan membedakan yang baik (antara individu yang mampu dengan yang tidak mampu), maka grafik ICC yang akan terjadi adalah sebagai berikut. Gambar 2.4 berikut menunjukan sebuah item yang memiliki kemampuan membedakan yang buruk. Perhatikan bahwa semakin kemampuan individu meningkat, hanya sedikit sekali perubahan peningkatan yang terjadi pada peluang untuk menjawab benar individu di item tersebut.

Individu yang memiliki kemampuan tinggi hanya memiliki peluang sedikit lebih tinggi pada item ini, dibandingkan dengan individu yang kemampuannya lebih rendah. Jika dibandingkan pada gambar 2.3 dimana item-itemnya memiliki kemampuan membedakan yang sangat baik, jelas sekali bahwa item pada gambar 2.4 kurang memiliki kemampuan membedakan dan memberi informasi tentang individu (Murphy & Davidshofer, 1994).

Gambar 2.4 Item characteristic curve pada item kurang baik (Sumber: Murphy & Davidshofer, 1994)

Kemudian pada gambar 2.5 menunjukan contoh item dengan arah daya pembeda yang negatif, artinya semakin tinggi kemampuan yang dimiliki individu, peluang untuk menjawab dengan benar pada item tersebut justru semakin rendah.

Sebaliknya, semakin rendah kemampuan yang dimiliki oleh individu, peluang untuk menjawab dengan benar pada item semakin tinggi. Jika menemukan item dengan perilaku seperti ini, peneliti harus mengecek kembali kunci jawaban karena dikhawatirkan kunci jawaban pada item tersebut salah. Namun jika kunci jawaban sudah benar, maka artinya item tersebut tidak boleh dipakai (tidak valid).

Gambar 2.5 Item characteristic curve pada item negatif (using M-Plus)

Jika dalam tahap pengembangan tes ada item yang menunjukan perilaku seperti gambar 2.4 dan gambar 2.5, maka item-item seperti itu harus di drop dan dikeluarkan dari tes. Dan jika dalam tes yang sudah baku, ditemukan perilaku item seperti gambar 2.4 dan gambar 2.5, maka item-item tersebut tidak boleh ikut diskoring.

Dalam dokumen FACTOR ANALYSIS (Halaman 52-59)