Kualitas Butir - Kualitas Psikometrik Instrumen

BAB II TINJAUAN PUSTAKA

C. Kualitas Psikometrik Instrumen

1. Kualitas Butir

Tes yang baik memiliki butir yang tidak rumit namun memiliki nilai validitas dan reliabilitas yang baik sesuai dengan tujuan tes. Untuk mencapai tujuan tersebut, analisis butir dilakukan dengan mengevaluasi karakteristik statistik jawaban responden terhadap butir tes. Analisis butir juga dilakukan untuk memastikan homogenitas dari seluruh butir dengan

memperhitungkan kemampuan butir memisahkan atau mengelompokkan seorang responden dengan responden lain pada sebuah tes. Berikut beberapa parameter untuk melakukan analisis butir (Crocker dan Algina, 2006;

Friedenberg, 1995; Supratiknya, 2014):

a. α jika butir digugurkan

α jika butir digugurkan adalah nilai α pada subtes apabila butir tersebut digugurkan atau ditiadakan. Nilai α berkaitan dengan estimasi taraf reliabilitas tes. Nilai α jika butir digugurkan yang ideal memiliki nilai yang lebih kecil dari nilai α sesungguhnya yang menandakan ketiadaan butir tersebut justru menurunkan estimasi taraf reliabilitas.

Sebaliknya, apabila nilai α jika butir digugurkan lebih besar dari nilai α sesungguhnya, ketiadaan butir tersebut diperlukan untuk meningkatkan estimasi taraf reliabilitas.

b. Taraf kesukaran butir (p)

Taraf kesukaran butir (p) merupakan perbandingan responden dengan jawaban yang diinginkan terhadap seluruh responden. Pada tes prestasi, jawaban yang diinginkan mengacu pada solusi dari masalah yang dipaparkan. Pada tes prestasi seperti IST, nilai (p) juga menentukan apakah butir sesuai untuk individu/populasi respoden tertentu.

Nilai (p) bernilai antara 0 sampai 1 dimana nilai 0 menunjukkan sebuah butir sama sekali tidak mendapat respon jawaban benar atau sangat sukar dan sebaliknya. Secara umum, butir tes yang baik memiliki taraf kesukaran antara 0,3 sampai 0,7 (Allen & Yen, 1979). Nilai (p) dibawah 0,3 atau diatas 0,7 perlu digugurkan atau direvisi. Akan tetapi, hal ini juga perlu mempertimbangkan tujuan tes. Pada tes seleksi yang ketat seperti tes kemampuan untuk menyeleksi puluhan responden dari puluhan ribu responden, tes perlu memiliki nilai (p) cenderung rendah.

Sebaliknya, pada tes seperti remedial untuk siswa sekolah dasar, tes mesti dibuat relatif lebih mudah atau nilai (p) cenderung tinggi.

c. Taraf diskriminasi butir

Taraf diskriminasi butir merupakan parameter kemampuan sebuah butir mencerminkan kelompok responden berdasarkan total skor tes.

Pada tes kepribadian, kelompok yang dimaksud adalah perilaku atau atribut (konstruk) kepribadian yang ingin diukur. Pada tes prestasi seperti IST, kelompok yang dimaksud adalah kelompok total skor Intelligent Quotent (IQ). Butir yang ideal adalah butir yang dapat memisahkan seorang responden terhadap responden lain yang berada pada kelompok yang berbeda. Pada IST, hal ini dicapai oleh butir yang paling mungkin dijawab benar oleh kelompok total skor tinggi dan dijawab salah oleh kelompok total skor rendah. Menggunakan pedoman pada tabel berikut, dapat diinterpretasi nilai taraf diskriminasi butir.

Tabel 1

Pedoman Penafsiran Indeks Diskriminasi Item

Nilai Keterangan

≥ 0,40 Daya diskriminasi sangat

memuaskan

0,30 – 0,39 Daya diskriminasi memuaskan, butir dapat dipertahankan / perlu dikenai revisi ringan

0,20 – 0,29 Daya diskriminasi kurang, butir perlu direvisi

≤ 0,20 butir perlu digugurkan atau

direvisi berat

Pesan. Diacu dari Ebel 1965, seperti dikutip dalam Crocker &

Algina, 2008, p.315

Sebagai informasi tambahan, Ebel (seperti dikutip dalam Azwar, 2012) berpendapat bahwa butir dengan taraf diskriminasi lebih dari 0,5 tidak perlu diragukan kemampuan diskriminasinya, sedangkan butir dengan taraf diskriminasi kurang dari 0,2 sebaiknya langsung digugurkan saja.

Ada berbagai metode yang biasa digunakan untuk mencari nilai taraf diskriminasi butir. 3 metode yang paling lazim digunakan adalah berikut:

i. Indeks diskriminasi antar kelompok nilai butir (d)

Taraf diskriminasi butir dapat dijelaskan dengan indeks diskriminasi antar kelompok nilai butir. Indeks diskriminasi butir merupakan estimasi diskriminasi butir dengan menganalisis kemampuan butir dalam membedakan responden pada kelompok skor tinggi dan kelompok skor rendah pada alat ukur. Nilai taraf ini didapat dengan membagi kelompok skor menjadi 2 kelompok skor dan hanya bisa diterapkan pada tes dengan 2 kelompok skor (Crocker dan Algina, 2008). Pembagian kelompok dilakukan berdasarkan total nilai tes. Nilai taraf dapat diestimasi menggunakan rumus berikut:

𝑑 = 𝑈_𝑖 𝑛_𝑈_𝐼− 𝐿_𝑖

𝑛_𝐿_𝐼

𝑈_𝑖 = total peserta yang termasuk dalam kelompok skor tinggi dan menjawab butir 𝑖 dengan benar

𝐿_𝑖 = total peserta yang termasuk dalam kelompok skor rendah dan menjawab butir 𝑖 dengan benar

𝑛_𝑈_𝐼 = total peserta yang termasuk dalam kelompok skor tinggi

𝑛_𝐿_𝐼 = total peserta yang termasuk dalam kelompok skor rendah

Sesuai dengan rumus diatas, jumlah responden pada kedua kelompok skor dapat disesuaikan dengan tujuan tes. Pada umumnya, kedua kelompok skor memiliki jumlah responden yang sama atau setengah dari total responden tes (𝑛_𝑈_𝐼 = 𝑛_𝐿_𝐼).

ii. Korelasi butir-total (rix)

Korelasi butir-total (rix) merupakan taraf sebuah butir mampu menggambarkan nilai total dari tes. Idealnya, sebuah tes terdiri dari butir yang mengukur atribut yang sama dan sesuai tujuan tes. Butir dengan nilai korelasi butir-total yang baik atau tinggi merupakan butir yang efektif mengukur atribut yang menjadi tujuan tes, dan sebaliknya. Menurut Azwar (2012), sebuah butir yang baik memiliki nilai koefisien sebesar ≥ 0,30.

iii. Efektivitas distraktor (ED)

Efektivitas distraktor merupakan taraf distribusi pilihan jawaban selain jawaban yang diinginkan yang diberikan responden. Jawaban distraktor atau pengecoh bertujuan untuk memikat responden yang tidak mengetahui jawaban yang diinginkan dengan pasti sehingga memilih jawaban distraktor. Jika jawaban distraktor dipilih terlalu sedikit atau tidak sama sekali oleh responden, jawaban distraktor dianggap buruk. Pada hakikatnya, jawaban distraktor harus disediakan pada butir. Maka dari itu, efektivitas distraktor hanya

bisa diestimasi jika butir berbentuk multiple choice atau pilihan ganda.

Untuk mengetahui taraf efektivitas distraktor, responden dibagi menjadi kelompok skor rendah dan kelompok skor tinggi. Distraktor yang ideal mestinya mengecoh lebih banyak orang pada kelompok skor rendah ketimbang kelompok skor tinggi. Taraf efektivitas distraktor yang ideal dapat diestimasi dengan menggunakan rumus berikut:

Efektivitas distraktor ideal = Jumlah peserta dengan jawaban salah (jawaban yang tidak diinginkan) / jumlah jawaban distraktor

Mengacu pada rumus diatas, efektivitas distraktor yang ideal dicapai jika taraf efektivitas distraktor pada kelompok rendah lebih besar ketimbang kelompok tinggi. Cohen et al (2013) berpendapat bahwa tes prestasi dengan bentuk pilihan ganda yang ideal memiliki sebuah alternatif jawaban benar, memiliki alternatif jawaban dengan tata bahasa yang serupa, memiliki alternatif jawaban dengan panjang kata yang sama, tidak terlalu panjang, dan tidak terlalu menyimpang dari inti pertanyaan butir.

Estimasi kualitas butir dalam penelitian ini menggunakan nilai α reliabilitas apabila butir digugurkan, korelasi butir-total (rix), taraf kesukaran butir (p), dan efektivitas distraktor (hanya pada subtes dengan bentuk pilihan ganda). Alat ukur yang terdiri dari butir-butir di dalamnya secara tidak langsung memiliki hubungan empiris yang linear. Kualitas butir ikut serta dalam menjelaskan dan menghasilkan nilai estimasi reliabilitas dan validitas tes.

Keempat aspek yang telah dipaparkan akan memengaruhi nilai estimasi reliabilitas dan validitas tes sehingga konsekuensi sosial dan interpretasi hasil tes dapat lebih baik maupun buruk dari taraf atribut responden yang sebenarnya. Nilai α apabila butir digugurkan memberi informasi terkait estimasi taraf reliabilitas tanpa informasi butir yang bersangkutan. Butir yang baik akan menurunkan nilai estimasi reliabilitas apabila ditiadakan.

Variabel lain adalah korelasi butir-total sebagai salah satu metode taraf diskriminasi butir memberi informasi terkait kontribusi butir menggambarkan nilai total dari tes. Butir yang baik memiliki korelasi butir-total yang sama atau lebih dari kriteria. Selain itu, taraf kesukaran butir memberi informasi terkait tingkat kesulitan sebuah butir. Butir yang baik memiliki taraf kesukaran yang tidak terlalu sulit maupun tidak terlalu mudah, tetapi disesuaikan dengan tujuan penyelenggaraan tes. Terakhir, efektivitas distraktor pada subtes dengan bentuk pilihan ganda memberi informasi seberapa efektif tiap pilihan jawaban yang bukan jawaban benar mengecoh responden pada kelompok skor rendah tetapi tidak mengecoh responden pada kelompok skor tinggi.

Dalam dokumen Analisis kualitas psikometrik alat ukur Intelligenz Struktur Test 1970 (IST-70) hasil adaptasi Universitas Padjajaran (Halaman 39-45)