BAB II. LANDASAN TEORI
B. Syarat Tes yang Baik
2. Kualitas Psikometrik
Kualitas psikometrik merupakan syarat yang terkait dengan karakteristik tes setelah tes disusun yang harus dipenuhi untuk memperoleh tes yang baik. Karakteristik ini meliputi reliabilitas, validitas, dan kualitas item. Tes yang memiliki reliabilitas, validitas, serta kualitas item yang baik menjadikan sebuah tes memenuhi standar kualitas psikometrik, yang dijelaskan sebagai berikut (Friedenberg, 1995; Anastasi & Urbina, 1997; Supratiknya, 1998B):
a. Reliabilitas
Prinsip reliabilitas ialah sejauhmana hasil suatu pengetesan dapat dipercaya. Suatu tes disebut reliabel apabila ada hasil yang relatif sama pada pengetesan awal dan pengetesan selanjutnya terhadap subjek yang sama. Relatif sama dimaksudkan sebagai adanya perbedaan-perbedaan kecil antara hasil beberapa kali pengetesan. Perbedaan yang besar antara hasil beberapa kali
pengetesan menunjukkan bahwa sebuah tes tidak dapat dipercaya atau tidak reliabel. Namun, reliabilitas tes tidak harus diuji dengan pengetesan beberapa kali. Ada teknik – teknik perhitungan reliabilitas yang dapat menggunakan hasil satu kali pengetesan (Azwar, 1986; 1992B).
Koefisien reliabilitas ditunjukkan dengan korelasi. Angka atau koefisien korelasi yang menunjukkan reliabilitas disebut koefisien reliabilitas (rxx), yang merupakan rasio varians true score
dengan varians skor total (Supratiknya, 1998A; Gregory 2000). Ada tiga pendekatan estimasi reliabilitas, meliputi: 1) Pendekatan Tes Retest
Pendekatan ini didasarkan pada pelaksanaan tes yang sama sebanyak dua kali dalam waktu yang berbeda terhadap subjek yang sama. Hasil kedua pelaksanaan tes tersebut dikorelasikan sehingga menunjukkan koefisien reliabilitasnya. Jika korelasi sempurna, maka reliabilitas tes itu adalah 1,00. Panjang pendeknya selang waktu kedua tes ditentukan oleh keyakinan kita tentang kestabilan sifat yang diukur (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A).
Kelemahan pendekatan ini adalah adanya kemungkinan
carry-over effect, artinya skor pengetesan pertama mempengaruhi skor pengetesan kedua sehingga dapat terjadi overestimasi atau underestimasi pada koefisien reliabilitas.
Overestimasi terjadi apabila jawaban pada pengetesan kedua mengulang jawaban pada pengetesan pertama sehingga korelasi antara kedua pengetesan menjadi tinggi. Underestimasi pada koefisien reliabilitas terjadi jika ada practice effect, dimana kinerja testi meningkat pada pengetesan ulang karena proses belajar. Peningkatan kinerja ini akan mempertinggi skor pada pengetesan kedua sehingga korelasi antara pengetesan pertama dan pengetesan kedua menjadi rendah (Azwar, 1986; Supratiknya, 1998A).
Selain itu, kelemahan lain dari pendekatan tes retest ialah tenggang waktu antara tes pertama dan tes kedua. Tenggang waktu yang singkat akan mengakibatkan carry-over effect, yaitu testi masih mengingat jawabannya pada pengetesan pertama. Sebaliknya, tenggang waktu yang lama akan dapat mempengaruhi perubahan jawaban dan suasana hati, misalnya pada tes-tes kepribadian (Allen & Yen, 1979).
2) Pendekatan Bentuk Paralel
Pendekatan ini didasarkan pada penyusunan dua tes berdasarkan spesifikasi dan blue-print yang sama. Estimasi reliabilitasnya dilakukan dengan mengkorelasikan skor tes utama dengan skor tes pengganti. Tes pengganti ialah tes yang berbeda dengan tes utama, namun mengukur kemampuan atau sifat yang sama dengan tes utama. Kedua tes akan memiliki
hasil pengukuran yang sama apabila sampel perilakunya merepresentasikan populasi (Azwar, 1987; Supratiknya, 1998A; Gregory, 2000).
Pendekatan ini akan menghasilkan estimasi reliabilitas yang baik apabila kedua tes memiliki fungsi pengetesan yang sama. Selain itu, tidak adanya pengaruh carry-over effect juga akan menghasilkan korelasi reliabilitas yang baik karena soal-soal kedua tes berbeda. Akan tetapi, pendekatan ini juga dapat menghasilkan estimasi reliabilitas yang buruk. Hal tersebut diakibatkan oleh kemungkinan bahwa kedua tipe tes mengukur hal yang berbeda (Nunnally, 1978; Allen & Yen, 1979).
3) Pendekatan Konsistensi Internal
Pendekatan konsistensi internal mengacu pada rata-rata korelasi antara item-item tes (Nunnally, 1978). Pendekatan ini dapat mengatasi masalah-masalah yang berkaitan dengan pengulangan tes, misalnya carry-over effect dan practice effect
dan hanya menggunakan skor satu kali tes. Teknik-teknik untuk melakukan pendekatan konsistensi internal ialah (Allen & Yen, 1979):
a) Koefisien α(α-Cronbach)
Koefisien α dilakukan dengan membandingkan performansi subjek pada setiap item dan performansinya pada keseluruhan item. Koefisien α tepat apabila diterapkan
pada tes yang memiliki item-item yang ekuivalen. Maka dari itu, koefisien α kurang tepat apabila diterapkan pada tes-tes yang bersifat heterogen, yang mengukur berbagai macam aspek, karena akan menghasilkan underestimasi pada koefisien reliabilitas (Allen & Yen, 1979; Supratiknya, 1998A).
b) Split Half
Teknik ini dilakukan dengan membagi dua kelompok item tes yang ekuivalen, lalu dikorelasikan satu sama lain (Allen & Yen, 1979; Azwar, 1987, Supratiknya 1998A). Kelemahan teknik ini ialah besar koefisien korelasi yang bergantung pada pembagian item-item (Nunnally, 1978). Macam-macam cara pembagian item-item tes ialah (Azwar, 1987; Supratiknya, 1998A):
(1) Metode Penggal Tengah
Metode ini dilakukan dengan membelah tes dari item nomor pertama hingga nomor tengah dan nomor tengah hingga nomor akhir. Setelah itu, skor kedua belahan tersebut dikorelasikan. Kelemahan metode ini ialah adanya practice effect, yaitu skor pada bagian belahan kedua lebih baik daripada bagian belahan pertama karena efek pembelajaran. Sebaliknya, bagian belahan kedua kadang memiliki skor lebih rendah
daripada bagian belahan pertama karena tes tidak selesai dikerjakan atau soal bagian tengah kedua lebih sulit (Azwar, 1987; Supratiknya, 1998A).
(2) Metode Gasal Genap
Metode ini dilakukan dengan membelah tes lewat mengambil nomor item ganjil dan nomor item genap. Selanjutnya, skor nomor item ganjil dan nomor item genap dikorelasikan. Akan tetapi, hal ini memungkinkan hanya apabila jumlah item tes genap agar pembagiannya merata (Azwar, 1987; Supratiknya, 1998A).
(3) Metode Matched Random Subsets
Metode ini dilakukan dengan menghitung rit
(korelasi biserial antara skor item dan skor total tes) dan p (taraf kesukaran item). Setelah itu, skor diplot dengan mengelompokkan tiap dua skor yang berdekatan dan ditentukan skor atas dan skor bawah. Koefisien reliabilitas didapatkan dengan mengkorelasikan skor atas dan skor bawah (Azwar, 1986; Supratiknya, 1998A).
Koefisien korelasi yang didapat dari pendekatan
split half merupakan koefisien reliabilitas dari setengah tes. Apabila hasil koefisien reliabilitasnya menunjukkan bahwa
item-item ekuivalen, maka perlu dilakukan lagi perhitungan koefisien keseluruhan tes berdasarkan koefisien split-halfnya dengan Spearman Brown Formula (Allen & Yen, 1979; Azwar, 1987; Supratiknya, 1998A).
b. Validitas
Pengertian validitas telah berevolusi dari waktu ke waktu. Pengertian awal mengenai validitas ialah mengukur apa yang seharusnya diukur. Namun, perkembangan konsep validitas memandang bahwa validitas merupakan usaha mencari bukti-bukti empiris untuk menentukan kelayakan penggunaan sebuah tes (Santoso, 2010; Supratiknya, 1998A).
Ada tiga cara estimasi validitas, meliputi (Allen & Yen, 1979; Nunnally, 1978; Azwar, 1986; Supratiknya, 1998A; Gregory, 2000; Santoso, 2010):
1) Validitas Isi
Validitas isi bertujuan untuk menguji sifat-sifat atau isi tes lewat penilaian yang bersifat subjektif dan rasional. Apabila item tes dianggap merepresentasikan hal yang akan diukur, maka tes tersebut memiliki validitas isi. Validitas isi tidak menggunakan perhitungan statistik, tapi menggunakan penilaian subjektif mengenai sejauhmana tes mencerminkan hal yang ingin diukur (Allen & Yen, 1979; Azwar, 1986; Azwar, 1992B; Supratiknya, 1998A; Gregory, 2000).
Ada dua tipe validitas isi, yaitu (Azwar, 1986; Supratiknya, 1998A):
a) Validitas Muka
Validitas ini diselidiki dengan cara menemukan kesimpulan bahwa tes mengukur sifat yang relevan lewat pendapat orang-orang. Orang yang diminta menilai bisa siapa saja, mulai dari para ahli sampai subjek yang dites, bahkan orang awam (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A).
b) Validitas Logis
Validitas ini menuntut rumusan secara cermat mengenai domain perilaku yang hendak diukur. Hal ini dilakukan dengan menyusun item-item yang mencakup kawasan perilaku dan menganalisis secara rasional apakah item-item tersebut telah mencerminkan kawasan perilaku yang hendak diukur. Penyusunan blue-print atau perencanaan isi tes dapat membantu memenuhi validitas ini agar penulis item tetap dapat menjaga kawasan ukur tes. Penilaian dari para ahli juga dapat membantu pemenuhan validitas ini (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A).
2) Validitas Berdasarkan Kriteria
Tipe validitas ini menunjukkan bahwa sebuah tes berfungsi secara efektif apabila dapat mengestimasi performansi testi, yang dikenal sebagai kriteria. Validitas berdasarkan kriteria ini dinyatakan dalam suatu koefisien korelasi, yakni korelasi antara skor tes dan skor kriteria. Maka dari itu, validitas ini bisa digunakan apabila skor tes dapat dihubungkan dengan kriteria (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A; Gregory, 2000).
Ada dua cara mengestimasi validitas berdasarkan kriteria (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A; Gregory, 2000):
a) Validitas Prediktif
Validitas prediktif menggunakan skor tes untuk memprediksi perilaku. Validitas ini dilakukan dengan mengumpulkan skor kriteria setelah skor tes didapatkan terlebih dahulu sehingga pengambilan skor tes dan skor kriteria tidak dilakukan dalam waktu yang bersamaan. Korelasi di antara dua kumpulan data ini adalah suatu ukuran validasi prediktif. Prosedur ini akan dapat memberikan indikasi yang baik terhadap prediksi perilaku (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A; Gregory, 2000).
b) Validitas Konkuren
Validitas ini digunakan jika skor tes dan skor kriteria dikumpulkan pada saat yang bersamaan. Kemudian, kedua skor tersebut dikorelasikan untuk mendapatkan koefisien validitasnya. Validitas konkuren lebih tepat digunakan untuk mengestimasi kriteria yang konkuren dibandingkan memprediksi perilaku (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A; Gregory, 2000).
3) Validitas Konstruk
Validasi konstruk menunjuk pada sejauh mana suatu tes mengukur konstruk teoritis atau sifat yang hendak diukur. Apabila didapatkan bukti empiris yang menunjukkan korelasi yang seharusnya antara skor tes dengan konstruk-konstruk, maka validitas konstruk tes tersebut tercapai (Azwar, 1986; Supratiknya, 1998A; Gregory, 2000).
Ada dua metode validitas konstruk (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A; Gregory, 2000):
a) Multisifat – Multimetode
Pendekatan ini diterapkan dengan mengkorelasikan dua atau lebih sifat dengan dua atau lebih metode. Hasilnya adalah matriks validitas multisifat – multimetode yang memperlihatkan inter-korelasi antara sifat dan metode yang
digunakan (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A).
Ada dua tipe validitas multisifat – multimetode (Allen & Yen, 1979):
(1) Validitas Konvergen
Validitas konvergen ditunjukkan ketika skor tes sifat yang mengukur sifat yang sama berkorelasi tinggi dengan metode yang berbeda. Korelasi yang tinggi menunjukkan bahwa tes sejalan dengan sifat (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A; Gregory, 2000).
(2) Validitas Diskriminan
Validitas diskriminan ditunjukkan dengan korelasi rendah antara skor tes sifat yang mengukur sifat yang berbeda. Korelasi yang rendah menunjukkan bahwa tes mendiskriminasikan sifat yang berbeda (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A; Gregory, 2000).
b) Validitas Faktorial
Validitas faktor merupakan salah satu metode validitas konstruk yang dilakukan lewat analisis faktor. Analisis faktor bertujuan untuk mengelompokkan subtes – subtes dalam sebuah tes lewat korelasi antar subtes – subtes
tersebut dalam faktor. Faktor ialah variabel hipotesis yang mempengaruhi skor pada subtes-subtes. Hasil dari analisis faktor berupa matriks korelasi antar subtes. Ketika faktor-faktor tidak berkorelasi satu sama lain, muatannya akan ditampilkan sebagai korelasi antara tes dan faktor. Ketika faktor berkorelasi satu sama lain, muatannya tidak berkorelasi namun dapat diinterpretasi seakan-akan berkorelasi, kecuali faktor-faktor yang berinterkorelasi tinggi (Allen & Yen, 1979; Azwar, 1986; Supratiknya, 1998A; Gregory, 2000).
Analisis faktor memiliki dua bentuk, yaitu (Hair, Anderson, Tatham, & Black, 1995):
(1) Analisis Faktor Konfirmatori
Analisis faktor konfirmatori dilakukan dengan mengkonfirmasikan apakah skor hasil tes dan variabel-variabel tes memiliki kesesuaian atau sejalan dengan sebuah pola prediksi tertentu yang ingin diungkap dari konstrak teoritisnya. Analisis ini bertujuan untuk mengevaluasi tingkat keakurasian prediksi-prediksi faktor-faktor yang dimiliki oleh sebuah tes (Hair, Anderson, Tatham, & Black, 1995).
(2) Analisis Faktor Eksploratori
Analisis faktor eksploratori digunakan untuk mencari struktur kesalinghubungan antara variabel. Selain itu, analisis ini juga berfungsi sebagai metode untuk mengurangi jumlah data yang dianalisis. Jumlah faktor yang dihasilkan biasanya lebih sedikit dibandingkan dengan jumlah variabel yang diteliti (Hair, Anderson, Tatham, & Black, 1995).
c. Kualitas Item
Tes yang baik ialah tes yang memiliki item-item yang berkualitas. Item-item yang berkualitas menunjukkan bahwa item-item tersebut telah melalui proses penyusunan yang berdasarkan petunjuk penulisan item yang semestinya. Item-item yang berkualitas tinggi walaupun jumlahnya sedikit lebih baik daripada item-item berkualitas rendah dengan jumlah banyak. Pengujian terhadap kualitas item-item akan membawa kesimpulan terhadap setiap item, meliputi item dapat digunakan, item dapat diperbaiki, atau item harus dibuang (Azwar, 1987; Supratiknya, 1998B).
Pengujian terhadap kualitas item menggunakan parameter-parameter sebagai berikut:
1) Koefisien α
Koefisien α merupakan fungsi langsung dari jumlah item serta besarnya inter-korelasi antar item. Suatu item dinilai
baik ketika item tersebut menurunkan koefisien α apabila dihapus. Sebaliknya, suatu item dinilai buruk ketika item tersebut meningkatkan koefisien α apabila dihapus (Prakosa, 1998).
Kelemahan metode ini ialah berkurangnya item juga dapat menurunkan koefisien α, walaupun item tersebut meningkatkan koefisien α apabila dihapus. Oleh karena itu, penggunaan parameter ini sebagai analisis terhadap kualitas item sebaiknya mengikuti prosedur iteratif, seperti: menghitung terus-menerus koefisien α dengan menggugurkan item yang menurunkan koefisien α hingga tidak ada lagi item yang menurunkan koefisien α (Prakosa, 1998).
2) Indeks Kesukaran Item
Indeks kesukaran item merupakan rasio antara penjawab item benar dan jumlah penjawab item. Indeks kesukaran item disimbolkan dengan huruf p. p dapat dihitung lewat menjumlahkan jawaban yang benar untuk setiap item, kemudian membaginya dengan jumlah orang yang menjawab. Nilai p berada pada kisaran 0 – 1. p yang bernilai 0 menunjukkan bahwa indeks kesukaran suatu item sangat rendah sehingga item sangat sulit untuk dikerjakan, sedangkan p yang bernilai 1 menunjukkan indeks kesukaran suatu item sangat tinggi sehingga item sangat mudah untuk dikerjakan.
Item yang baik ialah item yang memiliki tingkat kesukaran yang tidak terlalu rendah dan tidak terlalu tinggi. Oleh karena itu, p yang baik berada di kisaran 0,3 – 0,7 (Allen & Yen, 1979; Azwar, 1987; Supratiknya, 1998B).
3) Indeks Daya Diskriminasi Item
Indeks daya diskriminasi item merupakan kemampuan item dalam memperlihatkan kesesuaian fungsinya dengan fungsi tes. Perhitungan indeks daya diskriminasi item dapat dilakukan dengan dua cara, meliputi (Allen & Yen, 1979; Supratiknya, 1998B; Azwar, 1999):
a) Korelasi Item Total
Salah satu cara untuk mendapatkan indeks daya diskriminasi item adalah dengan menghitung korelasi item total. Item yang baik harus memiliki korelasi item – total yang baik pula. Hal ini merujuk pada tiap item harus sejalan dengan tes, yaitu mengukur hal yang sama dengan apa yang diukur oleh tes secara keseluruhan. Korelasi item total ditunjukkan lewat koefisien korelasi. Koefisien korelasi yang baik sebagai daya diskriminasi yang baik ialah bernilai positif dan ≥ 0,3. Koefisien korelasi negatif menunjukkan bahwa item mengukur hal yang berbeda dengan tes. Koefisien korelasi yang rendah menunjukkan bahwa item memiliki fungsi yang tidak sesuai dengan
fungsi tes (Azwar, 1987; Supratiknya, 1998B; Azwar, 1999).
b) Pembagian Kelompok Tinggi dan Kelompok Rendah
Cara kedua untuk mendapatkan indeks daya diskriminasi item ialah dengan membagi subjek ke dalam kelompok tinggi dan kelompok rendah. Pada cara ini, daya diskriminasi item merupakan kemampuan item dalam membedakan penjawab yang mempunyai kemampuan yang tinggi, disebut Kelompok Tinggi dan penjawab yang mempunyai kemampuan yang rendah, disebut Kelompok Rendah. Penjawab dalam Kelompok Tinggi ditentukan sebanyak 27% dari jumlah penjawab yang memiliki nilai tertinggi dalam tes, sedangkan penjawab dalam Kelompok Rendah ditentukan sebanyak 27% dari jumlah penjawab yang memiliki nilai terendah dalam tes. Indeks daya diskriminasi item kemudian dihitung dengan mengurangi rasio antara penjawab item benar dalam Kelompok Tinggi dan banyaknya subjek dalam Kelompok Tinggi dengan penjawab item benar dalam Kelompok Rendah dan banyaknya subjek dalam Kelompok Rendah. Suatu item baik apabila memiliki daya diskriminasi yang tinggi. Daya diskriminasi item yang tinggi menunjukkan perbedaan yang besar antara proporsi penjawab benar dari Kelompok
Tinggi dan Kelompok Rendah (Azwar, 1987; Supratiknya, 1998B).
Daya diskriminasi item yang baik berkisar antara 0,4 – 0,6 yang menunjukkan bahwa item tidak terlalu mudah dan tidak terlalu sulit. Berikut kriteria penentuan kategori evaluasi indeks daya diskriminasi item adalah:
Tabel 1.
Kategori Evaluasi Indeks Daya Diskriminasi Item (Azwar, 1987; Supratiknya, 1998B)
Daya Diskriminasi Item Kategori
0,40 ≤ baik sekali
0,30 – 0,39 lumayan baik dan perlu peningkatan 0,20 – 0,29 belum memuaskan dan perlu diperbaiki < 0,20 buruk dan harus dibuang
4) Efektivitas Distraktor
Efektivitas distraktor menunjukkan pilihan jawaban selain kunci, yang disebut distraktor, telah berfungsi sebagaimana mestinya atau tidak. Distraktor yang baik ialah distraktor yang dapat mengecoh Kelompok Rendah, namun tidak dapat mengecoh Kelompok Tinggi. Efektivitas distraktor dilihat melalui dua kriteria, yaitu:
a) Jumlah pemilih distraktor pada Kelompok Rendah lebih banyak daripada Kelompok Tinggi. Kriteria ini berkaitan dengan daya diskriminasi item.
b) Ada pemilih untuk setiap alternatif jawaban. Distraktor yang tidak ada pemilihnya dimungkinkan karena distraktor
tersebut tampak jelas sebagai pilihan yang salah (Azwar, 1987; Supratiknya, 1998B).
Kualitas psikometrik terdiri dari tiga karakteristik, meliputi reliabilitas, validitas, dan kualitas item. Ketiga karakteristik tersebut harus terpenuhi dalam sebuah tes agar tes memenuhi standar kualitas psikometrik. Reliabilitas dan validitas memiliki beberapa teknik estimasi yang masing-masing memiliki kelebihan dan kekurangan. Penggunaan teknik estimasi reliabilitas dan validitas dapat disesuaikan dengan kebutuhan dan ketersediaan data. Kualitas item-item tes dapat diuji dengan menggunakan beberapa parameter. Hasil pengujian tersebut akan memperlihatkan item-item yang layak pakai dan tidak layak pakai.
3. Norma Tes