Tujuan
•
Memahami konsep dan strategi memilih item tes
berdasarkan kriteria eksternal.
•
Memahami konsep dan strategi memilih item tes
berdasarkan konsistensi internal yang meliputi
kesulitan item (indeks kesulitan item atau
p
) dan
kemampuan mendiskriminan kelompok (indeks
diskriminasi item atau
D
).
•
Memahami konsep dan strategi memilih
pengganggu item pilihan ganda (
multiple-choice
item distracters
).
•
Memahami konsep dan strategi memilih tes
berdasarkan
item-response curve
dan
item-response theory
(IRT)
•
Mendeskripsikan strategi pengembangan sampel
standard.
•
Penghitungan statistik tertentu yang harus
diteliti dengan seksama untuk
menentukan apakah semua item pada tes
berfungsi seperti yang seharusnya dan
bagaimana cara menginterpretasikan skor
tes.
•
Analisis item berfokus pada memfungsikan
masing-masing item sedangkan
standardisasi tes berkaitan dengan
•
Classical Test Theory (CTT) dan
Item-respons
theory
(IRT) bermanfaat pada penyusunan, analisis
dan penerapan tes dan tergantung pada tugas
khusus.
•
Setelah tes diselenggarakan dan diberi skor, baru
ketahuan bahwa tes itu belum dilaksanakan dengan
baik. Ketika tes diuji coba pertama kali, tampaknya
sejumlah masalah dapat diselesaikan.
•
Pelaksanaan tes yang tidak baik ini merupakan
salah satu alasan mengapa tes yang didistribusikan
secara komersial diselenggarakan dulu pada
•
Apapun jenis tes – terstandardisasi atau dibuat
guru, kemampuan atau kepribadian – analisis
hasil post-mortem atau post hoc sama perlunya
pada perusahaan obat atau perusahaan lain
yang berciri manusia.
•
Diantara pertanyaan yang perlu dijawab adalah :
Apakah waktu yang tersedia cukup ? Apakah
peserta memahami petunjuk tes ? Apakah
kondisi tes memadai ? Apakah keadaan darurat
diatasi dengan tepat ? Apakah item jelas ?
•
Analisis respons yang disampaikan oleh
kelompok orang mengenai masing-masing
item pada tes memberikan beberapa fungsi.
•
Tujuan utama analisis item semacam itu
adalah membantu meningkatkan tes dengan
memperbaiki atau menghapus item inefektif.
•
Fungsi penting lain dari analisis item,
terutama analisis item pada tes pencapaian
adalah memberikan informasi diagnostik
Tes yang mengacu ke Kriteria
dan Tes Penguasaan
• Prosedur yang digunakan dalam mengevaluasi efektivitas
item tes tergantung pada tujuan tes. Misalnya, penyusun tes ingin mendesain tes yang memprediksi gejala klinis yang relevan, seperti hasil diagnosis psikoterapi atau psikiatri.
• Item pada tes akan dipilih berdasarkan pada seberapa
bagus penyusun tes memprediksi gejala klinis ini.
• Penyusun tes lain berkaitan dengan menentukan
•
Tujuan pengetesan
criterion-referenced
(or
domain
referenced
) testing semacam itu bukan hanya
untuk menemukan bagaimana skor yang diperoleh
seseorang dibandingkan dengan orang lain tetapi
juga untuk menentukan di mana dia berposisi
terhadap tujuan kuliah atau gejala klinis tertentu.
•
Jenis khusus tes yang mengacu ke kriteria yang
didisain untuk mengukur pencapaian ketrampilan
kognitif yang lingkupnya terbatas dikenal sebagai
tes penguasaan (
mastery test
).
•
Skor seseorang pada tes penguasaan diungkapkan
Perbedaan Individu dan Validitas Item
•
Karena sangat sulit memperoleh
persetujuan pada seberapa banyak orang
seharusnya tahu mengenai subjek tertentu
atau apa yang mendasari menguasaan ini,
skor tes psikologi atau pendidikan secara
tradisional telah diinterpretasikan dengan
cara membandingkannya dengan skor yang
diperoleh orang lain.
•
Orang berbeda dalam kemampuan dan
kepribadian mereka dan para psikolog
berusaha mengevaluasi perbedaan ini dengan
berbagai jenis tes.
•
Para penyusun tes professional mencoba
merencanakan item yang berbeda bagi orang
yang berbeda dalam kaitannya dengan
kemampuan apa yang diukur .
•
Untuk menilai kemanfaatan item sebagai
ukuran perbedaan individu dalam kemampuan
atau karakteristik kepribadian, para penguji
•
Validitas item untuk memprediksi
keadaan kriteria eksternal ditentukan
dengan mengkorelasikan skor pada
item (nol untuk salah dan 1 untuk
benar) dengan skor pada ukuran
patokan.
•
Jenis koefsien korelasi yang
berbeda-beda digunakan untuk tujuan ini
yang paling umum koefsien
dua-rangkaian titik (
point biserial
•
Item yang memiliki korelasi serendah 0,20
berdasarkan kriteria memberikan kontribusi
untuk memprediksi item itu, meskipun
koefsien lebih tinggi lebih disukai. Item yang
memiliki korelasi hampir atau kurang dari
0,00 dengan criteria pasti harus diperbaiki
atau dibuang.
•
Item yang memiliki korelasi tinggi
berdasarkan criteria tetapi korelasi rendah
dengan item lain adalah yang terbaik karena
item itu membuat kontribusi yang lebih
Indeks Kesulitan Item dan Indeks Diskriminasi
• Dalam kasus tes pencapaian prestasi di kelas, item
dikorelasikan dengan skor total pada tes itu sendiri.
Diasumsikan bahwa rangkaian item sebagai keseluruhan merupakan ukuran pencapaian yang memadai mengenai subjek, skor total sebagai kriteria dalam menentukan
konsistensi internal tes.
• Prosedur jalan pintas adalah menyortir para peserta tes
menjadi 3 kelompok menurut skor mereka pada tes
sebagai satu keseluruhan : kelompok tinggi terdiri dari 27 % yang membuat skor tertinggi, kelompok rendah terdiri dari 27 % yang membuat skor terendah dan sisanya 46 % berada pada kelompok tengah. Jika jumlah responden
•
Nilai
p
disebut indeks kesulitan item (item
difculty indeks) dan D sebagai indeks
diskriminasi item (item discrimination
indeks).
•
Misalkan disumsikan bahwa 50 orang
mengikuti tes.
•
Kemudian , kelompok tinggi dan rendah
dibentuk dari bagian atas 0,27 x 50 = 14 dan
14 terendah pada skor tes total. Jika 12 orang
pada kelompok tinggi dan 7 orang pada
kelompok rendah lolos item A maka
•
Indeks kesulitan item memiliki cakupan dari 0,00
– 1,00. Item dengan p = 0,00 adalah item yang
tidak seorangpun menjawab benar dan item p =
1,00 dijawab benar oleh semua orang.
•
Nilai-p optimum untuk item tergantung pada
sejumlah faktor, yang mencakup tujuan tes dan
jumlah opsi respons. Jika tujuan tes adalah
mengidentifkasikan atau memilih hanya
presentase kecil dari pelamar terbaik maka tes
harus cukup sulit seperti tercermin pada nilai
mean
p
rendah. Jika tes didesain untuk
•
Nilai optimum
p
tergantung pada tes. Misalnya,
p
optimum harus cukup rendah untuk item tes yang
didesain untuk menentukan penerima beasiswa
atau untuk penempatan tingkat lanjut, tetapi
cukup tinggi pada tes yang didesain untuk
mengidentifkasikan siswa yang mengikuti
program remidi. Pada tes yang didesain untuk
mengukur cakupan luas kemampuan, nilai p
optimum hampir memdekati 0,5.
•
Nilai mean optimum
p
untuk tes semacam itu juga
bervariasi secara berkebalikan dengan jumlah
opsi respons (k), p untuk item yang dapat
diterima akan masuk ke cakupan yang cukup
• Indeks diskriminasi item (D) adalah ukuran efektivitas
item dalam mendeskripsikan antara pemilik skor tinggi dan rendah pada tes.
• Semakin tinggi nilai D, semakin efektif item dalam
mendeskriminasikan antara peserta tes dengan skor tinggi dan peserta tes dengan skor rendah pada tes sebagai satu keseluruhan.
• Ketika D adalah 1,00 semua peserta tes di kelompok
tinggi menjawab item dengan benar dan tak
seorangpun di kelompok rendah pada skor tes total menjawab item dengan benar.
• Akan tetapi, jarang D setera dengan 1,00 dan item ini
•
Tetapi D dan p bukan indeks
independen, dan nilai D minimum
yang dapat diterima ketika p
semakin tinggi atau semakin rendah
daripada nilai optimum terutama
Faktor yang Mempengaruhi
Berfungsinya Item
• Dalam menyusun tes terstandardisasi, sekarang
menjadi praktik umum untuk meneliti tiap-tiap item dan statistik yang terkait dengannya untuk
mendapatkan indikasi mengenai diskriminasi atau bias kelompok.
• Indeks statistik diferential item function (DIF)
seringkali dihitung untuk mempermudah proses ini.
• Item dapat bias hanya ketika item itu mengukur sesuatu yang berbeda – karakteristik atau ciri
• Jika skor item mencerminkan perbedaan nyata kemampuan
atau karakteristik apa pun yang didesain untuk diukur oleh item itu, item itu secara teknis tidak bias.
• Menyelenggarakan analisis item terpisah bagi tiap-tiap
kelompok akan mengungkapkan keberadaan bias item
yakni apakah item tersebut mendeskriminasi dengan baik antara pemilik skor tinggi dan rendah pada kedua
kelompok tersebut.
• Analisis item menghasilkan perbaikan signifkan terhadap
efektivitas tes. Indeks diskriminasi item secara khusus merupakan ukuran yang cukup bagus mengenai kualitas item.
• Bersama dengan indeks kesulitan ( p ), D dapat digunakan
•
Bank item semacam itu digunakan
tidak hanya oleh penyusun tes
tradisional professional, tetapi juga
diberikan sebagai bahan tambahan
pada sejumlah buku teks yang
digunakan sebagai tes praktek atau
menjadi kumpulan item untuk
Konsistensi Internal Versus Validitas Internal
• Konsep validitas item biasanya mengacu ke hubungan
item dengan kriteria eksternal. Sebaliknya, D adalah ukuran hubungan skor item dengan kriteria internal – skor total – bukan dengan kriteria eksternal.
• Memilih item yang berdasar statistik D menghasilkan
jenis tes yang berbeda daripada item yang terdiri atas item yang dipilih berdasar korelasi tinggi dengan kriteria eksternal.
• Kadangkala kombinasi dua startegi memadai : tes
gabungan disusun dari subtes yang saling memiliki korelasi rendah dan korelasi yang substansial dengan kriteria eksternal, tetapi item-item subtes sangat
Item Tes yang Mengacu ke Kriteria
•
Indeks kesulitan dan indeks diskriminasi juga
dapat dihitung berdasar item tes yang
mengacu ke kriteria yang didesain untuk
menentukan posisi peserta tes terhadap tujuan
pendidikan yang telah ditetapkan.
•
Dalam kasus ini, peserta tes dibagi menjadi 2
kelompok : kelompok atas yang terdiri dari
peserta
U
yang skor tes totalnya memenuhi
kinerja yang dapat diterima yang telah
dirancang berdasar kriteria dari peserta tes
L
Analisis terhadap Pengganggu
• Analisis item pilihan-ganda secara tradisional telah mulai
dengan penghitungan indeks kesulitan dan indeks diskriminasi untuk tiap-tiap item.
• Analisis kedua berkaitan dengan berfungsinya k-1 opsi
(pengganggu atau distracter) salah untuk tiap-tiap item. Indeks diskriminasi item (D) memberikan informasi pada berfungsinya gangguan secara keseluruhan.
• D positif berarti pada peserta tes pada kelompok
atas (pada skor tes total) cenderung memilih jawaban dengan benar sedangkan yang ada di kelompok bawah cenderung memilih satu
pengganggu besarnya D menunjukkan tingkat kecenderungan ini.
• D negatif menunjukkan bahwa pengganggu dipilih
Kurva Karakteristik Item
•Nilai p dan D yang dapat diterima tidak menjamin bahwa
item berfungsi dengan tepat di semua level kinerja tes.
•Agar sangat efektif, proporsi orang yang menjawab item
tes dengan tepat harus meningkat dengan mantap seiring dengan peningkatan skor total pada tes atau subtes.
•Apakah item tes berfungsi dengan cara ini dapat
ditentukan dari item characteristic curve (ICC). Dalam
menyusun ICC, proporsi responden yang member jawaban kunci diplot terhadap skor mereka berdasarkan kriteria
•
Level kesulitan (
b
) adalah skor criteria yang 50 %
peserta tes member jawaban benar (berdasar kunci);
indeks diskriminasi (
a
) adalah tingkat kemiringan
(slope) kurva respons-tem pada poin 50 %.
•
Misalkan dari dua ICC yang diplot pada Gambar 4.1,
nilai 0,5 pada sumbu vertical berhubungan dengan
skor total 68 pada kasus item 1 dan 77 pada kasus
item 2.
•
Akibatnya item 2 lebih sulit daripada item 1. Akan
tetapi, ICC item 1 memiliki kemiringan lebih curam
dari pada item 2 , maka item 1 mendiskriminasi
Item response Theory
•
Metode ini pertama kali
mengembangkan teori mengenai cara
berfungsinya item berdasarkan
pengetahuan mengenai kemampuan
atau ciri kepribadian (Trait).
•
Metode ini membandingkan respons
sesungguhnya terhadap item untuk
menentukan seberapa bagus
berfungsinya item. Jadi item
sesungguhnya dibandingkan dengan
bagaimana seharusnya item itu
•
Seperti digambarkan pada Gambar 4.2, bentuk kurva
respons-item bervariasi mengikuti nilai parameter a
dan b. Kedua kurva pada gambar ini disusun dengan
fungsi dua-parameter pada rumus 4.5.
•
Pada kurva P, parameter kesulitan (
b
) adalah 1,00
dan parameter diskriminan (
a
) adalah 0,5; pada
kurva Q,
b
= 0,25 dan
a
= 0,75.
•
Catat bahwa
b
adalah nilai (titik pada sumbu
•
Skor pada kontinum, kemampuan
tersembunyi (
latent ability
continuum
) dinyatakan sebagai unit
skor standard (z ), tetapi pada
penerapan sebagian besar pendidikan,
skor z diubah ke skala yang memiliki
mean 300 dan deviasi standard 50.
•
Pada praktek sesungguhnya,
parameter item dan skor kemampuan
tersembunyi (
latent ability score
)
• Masalahnya adalah mencari kurva respons-item yang paling cocok dengan respons terhadap tiap-tiap item.
• Pencarian ini melibatkan prosedur yang
mungkin-maksimum secara iterative dengan mengasumsikan nilai awal tertentu untuk parameter itemnya dengan menghitung P() yang berhubungan dengan berbagai nilai , membandingkan respons-item hasil prediksi
dengan respons-item sesungguhnya dan melanjutkan proses sampai solusi terbaik dapat diraih.
• Proses estimasi parameter item membutuhkan respons
banyak peserta tes yang mewakili populasi potensi
• Tidak seperti metodologi pengetesan tradisional, yang
mengacaukan antara diskriminasi dan kesulitan tes pada sampel tertentu orang yang dites, pada IRT maka
parameternya adalah, setidaknya dalam teori, independen terhadap sampel tes.
• Sifat IRT yang menarik lainnya, invariance kemampuan tes dengan respons terhadap item yang digunakan untuk
mengestimasinya, berakar pada proses pengestimasian . Fitur IRT ini berarti bahwa tes pada level kesulitan manapun dapat dikelola untuk menentukan posisi seseorang pada
berbagai level kemampuan tersembunyi (latent ability continuum).
• IRT telah dipergunakan untuk berbagai tujuan, yang meliputi penyusunan tes, kalibrasi skor tes untuk menyediakan kerangka acuan guna
menginterpretasikannya. Standardisasi tes, penentuan
Standardisasi dan Norma Tes
• Fitur inti pada sebagian besar tes psikologi adalah bahwa skor individu harus dibandingkan dengan beberapa kelompok normative. Fitur ini
memungkinkan kita harus menginterpretasikan makna skor.
• Misalnya, kita tahu bahwa seseorang mendapat skor tinggi pada introversi karena orang lain
merespon pada item sama menguasai sedikit jumlah item yang berkaitan dengan introversi.
• Untuk menyelesaikan tugas ini, tes, inventori
•
Tes terstandardisasi apapun memiliki
petunjuk standard mengenai
penyelenggaraan dan pemberian skor
yang harus benar-benar diikuti sehingga
hanya menyisakan ruang kecil untuk
interpretasi dan bias pribadi.
•
Standardisasi juga melibatkan
pengelolaan tes tes terhadap sampel
orang dalam jumlah besar
(standardisasi sampel) yang dipilih
sebagai wakil dari populasi sasaran
•
Tujuan utama standardisasi tes adalah untuk
menentukan distribusi skor mentah pada
sampel terstandardisasi (kelompok norma).
•
Skor mentah yang diperoleh tersebut
kemudian dikonversikan ke beberapa bentuk
skor turunan atau norma.
•
Dalam mengevaluasi anak cacat, kadangkala
perlu mengelola tes di luar level (
out-of-level
test
) yang didesain untuk level usia dan level
grade di bawah orang yang
Memilih Sampel
Terstandardisasi
•
Agar berfungsi secara efektif pada interpretasi
skor tes, norma harus sesuai dengan kelompok
atau individu yang dievaluasi.
•
Kapanpun skor tes dikonversikan dengan
mengacu ke tabel norma, penting untuk
membuat catatan mengenai karakteristik
sampel (usia, jenis kelamin, etnik, pendidikan ,
status sosioekonomi, wilayah geograf) dari
• Ciri pemilihan sampel terstandardisasi dari populasi bervariasi dari pengambilan sampel secara acak
sederhana (simple random sampling) sampai strategi pemilihan sampel yang lebih rumit seperti pengambilan sampel secara cluster (cluster sampling).
• Pengambilan sampel secara cluster lebih ekonomis
daripada pengambilan sampel secara acak terstratifkasi dan lebih mungkin dari pada pengambilan sampel
secara acak sederhana dalam menghasilkan sampel yang mewakili populasi sasaran.
• Norma yang dipublikasikan pada buku petunjuk
bermanfaat untuk membandingkan skor peserta tes dengan skor sampel orang dari berbagai lokasi,
Norma Usia dan Kelas
•
Norma usia (ekuivalen usia , usia pendidikan)
merupakan skor median pada tes yang
diperoleh orang pada usia kronologis tertentu;
norma kelas (
grade norm
) (ekuivalen kelas)
adalah skor median yang diperoleh siswa pada
level kelas tertentu.
•
Norma usia dan norma kelas memiliki
kelemahan yang serius. Masalah utama adalah
pertumbuhan karakteristik kognitif, psikomotorik
atau afektif tidak seragam pada seluruh
•
Norma usia dan kelas secara salah
menyiratkan bahwa laju peningkatan
kemampuan yang dites adalah konstan dari
tahun ke tahun karena itu penggunaan dua
norma itu sering dihalangi oleh para ahli di
bidang pengukuran pendidikan.
•
Norma yang unit pengukuran kurang variabel
sepanjang cakupan skor lebih disukai.
•
Karena kemudahan penggunaan, norma usia
Normal Persentil
• Norma persentil berisi tabel persentase yang berkaitan
dengan skor mentah tertentu. Skor mentah ini disebut sebagai persentil dan persentase kelompok norma yang masuk ke bawah skor tertentu merupakan rentang
persentil (persentil range) skor ini.
• Peringkat persentil (persentil rank) cukup mudah
dihitung dan dipahami oleh karena itu lebih populer daripada norma standard.
• Laporan psikologi yang berusaha keras untuk
menekankan kejelasan akan berkata sesuatu seperti
“John mendapat skor pada peringkat rata-rata tinggi atau dalam persentil ke-85. Ini berarti bahwa dia mendapat
Norma-skor Standard
•
Tidak seperti peringkat persentil, skor
standard menghadirkan pengukuran
pada skala interval.
•
Norma skor standard adalah skor
terkonversi yang memiliki mean dan
standard deviasi yang diinginkan. Ada
banyak skor standard yang berbeda,
meliputi skor z, skor Z, skor CEEB, skor
IQ deviasi, skor stanine, skor T dan
Skor Z
•
Kenyataan bahwa skor z mungkin angka desimal
negatif atau positif menciptakan beberapa
kesulitan dalam menggerakkan angka itu.
•
Masalah dapat diselesaikan dengan mengalikan
skor z dengan angka konstan dan menambah
angka konstan lain pada hasilnya.
•
Mengalikan z dengan 10, menambah 50 pada
Skor CEEB
• Pada suatu saat skor satu waktu CEEB pada tes yang
dipublikasikan oleh College Entrance Examination Board (CEEB) ditentukan dengan mengalikan skor z yang
berkaitan dengan 100 dan menambah 500 ke hasilnya. Misalnya, ini dilakukan pada skor mentah pada Scolastic Aptitude Test (SAT) yang diselenggarakan pada 1941, menghasilkan distribusi baru yang memiliki mean 500 dan deviasi standard 100.
• Akan tetapi, sesudah itu, skor yang diperoleh siswa
Skor Wechsler
•
Skor mentah pada subtes skala
kecerdasan Wechsler diubah agar
memiliki mean 10 dan deviasi
standard 3.
•
Namun, skor verbal, Kinerja dan
Skala penuh (deviasi IQ) pada tes
Skor Standard yang dinormalisir
•
Skor z
ndapat diubah menjadi skor
dinormalisir yang memiliki mean dan
deviasi standard yang diinginkan.
•
Skala skor lain adalah skala stanine yang
diilustrasikan dengan skala ketiga dari
bawah. Pada skala standard dinormalisir
ini, yang memiliki mean 5 dan deviasi
•
Rentang ini didesain dari angka 1 – 9 dan
seperti diperlihatkan pada gambar, persentase
tertentu dari distribusi skala normal berada
dalam interval yang diwakili oleh stanine
tertentu. Akan tetapi, skala stanine bukanlah
skala standard sesungguhnya, karena stanine
pertama dan kesembilan terbuka di bagian
akhir.
•
Salah satu keunggulan skor statine adalah
bahwa skor tersebut mewakili rentang bukan
titik tertentu. Keunggulan ini membantu
Tes Penyamaan (Equating Tests)
• Skor yang dibuat pada satu bentuk, sangat serupa dengan skor peserta tes yang sama pada bentuk pertama.
• Proses penyamaan atau lebih tepatnya membuat perbandingan, dua tes dengan level kesulitan sama (misalnya kelas sama) disebut sebagai penyamaan horizontal (horizontal equating).
• Penyamaan juga dapat dilakukan secara vertikal, seperti ketika skor pada dua tes yang memiliki level kesulitan berbeda (mis. Kelas berbeda) dipersamakan.
• Secara umum, proses penyemaan melibatkan
menjangkarkan tes ke tes umum atau kumpulan item,
• Pembahasan sebelumnya mengenai item-response theory menunjukkan
bahwa teori ini mengkalibrasikan serangkaian item tes berdasar pada bagaimana cara item itu harus dilakukan secara teoritis.
• Lalu teori ini membandingkan respons item sesungguhnya untuk melihat tingkat seberapa respons ini mendekati kinerja teoritis (biasanya diwakili dengan skor standard pada sumbu horizontal kurva respons-item).
• Pendekatan IRT pada penyamaan melibatkan temuan equation linear
yang mengubah parameter item (indeks kesulitan dan indeks
diskriminasi) dari satu bentuk tes ke bentuk kedua. Proses ini disebut sebagai kaitan (linking).
• Prosedur linking ini mengharuskan bahwa dua tes berbagi beberapa
item umum (jangkar/anchor) atau bahwa subtes peserta tes mengikuti kedua tes atau tes ketiga yang mengukur ciri yang sama.
• Prosedur penyamaan pada IRT itu ekonomis pada pengambilan sampel
TERIM
A