Reliabilitas - Kualitas Psikometrik Instrumen

BAB II TINJAUAN PUSTAKA

C. Kualitas Psikometrik Instrumen

2. Reliabilitas

Keempat aspek yang telah dipaparkan akan memengaruhi nilai estimasi reliabilitas dan validitas tes sehingga konsekuensi sosial dan interpretasi hasil tes dapat lebih baik maupun buruk dari taraf atribut responden yang sebenarnya. Nilai α apabila butir digugurkan memberi informasi terkait estimasi taraf reliabilitas tanpa informasi butir yang bersangkutan. Butir yang baik akan menurunkan nilai estimasi reliabilitas apabila ditiadakan.

Variabel lain adalah korelasi butir-total sebagai salah satu metode taraf diskriminasi butir memberi informasi terkait kontribusi butir menggambarkan nilai total dari tes. Butir yang baik memiliki korelasi butir-total yang sama atau lebih dari kriteria. Selain itu, taraf kesukaran butir memberi informasi terkait tingkat kesulitan sebuah butir. Butir yang baik memiliki taraf kesukaran yang tidak terlalu sulit maupun tidak terlalu mudah, tetapi disesuaikan dengan tujuan penyelenggaraan tes. Terakhir, efektivitas distraktor pada subtes dengan bentuk pilihan ganda memberi informasi seberapa efektif tiap pilihan jawaban yang bukan jawaban benar mengecoh responden pada kelompok skor rendah tetapi tidak mengecoh responden pada kelompok skor tinggi.

sesungguhnya (T) yang dipengaruhi oleh skor kesalahan pengukuran (E).

Jika dirumuskan akan menghasilkan persamaan berikut:

X = T + E

Mengacu pada pendapat Cohen et al. (2013), ada beberapa hal yang dapat meningkatkan nilai kesalahan pengukuran (E). Pertama adalah kesalahan pengukuran yang diakibatkan kesalahan sistematisasi alat ukur yang mengikutsertakan variabel terukur lain selain variabel yang disasar.

Kedua adalah kesalahan pengukuran yang diakibatkan perubahan nilai variabel yang disasar. Ketiga adalah kesalahan pengukuran yang diakibatkan gangguan tak terduga yang timbul selama pengetesan.

Nilai E memiliki variansi yang beragam. Cohen et al. (2013) membagi variansi menjadi dua: Variansi Sungguhan, yang merupakan variansi yang relevan dengan hasil tes, dan sebaliknya, Variansi Sesat, yang merupakan variansi yang tidak relevan dengan hasil tes. Variansi nilai E dapat disebabkan beberapa hal: 1) Konstruksi Tes; Sebuah tes perlu memiliki beberapa butir yang mengukur hal yang sama, tetapi berbeda dalam hal dinamika kata. Apabila sebuah tes hanya mengukur satu hal dengan satu butir, maka kemungkinan skor menjadi lebih tinggi atau sebaliknya daripada skor sesungguhnya atau skor tes lain yang mengukur hal yang sama. Hal ini menjadi tantangan bagi pencipta tes untuk menciptakan tes dengan sebanyak mungkin variansi sungguhan dan seminimal mungkin variansi sesat. 2) Administrasi Tes; Sebuah tes perlu memerhatikan pengkondisian yang dilakukan selama pengetesan. Hal ini berdampak pada performa individu yang melakukan tes. Hal ini mencakup kontrol terhadap lingkungan tes, sikap dan perilaku pemberi tes, dan faktor terkait pemberi tes seperti penampilan dan kejelasan instruksi tes. 3) Penilaian dan Interpretasi Tes; Penilaian dan interpretasi tes dipengaruhi oleh sistem nilai dan individu yang menilai. Kemajuan zaman membuat kelalaian dapat

dikoreksi oleh komputer. Beberapa tes, terutama tes kepribadian, perlu dikoreksi menggunakan pertimbangan kompleks manusia yang tidak bisa dilakukan komputer hari ini. Hal ini juga menjadi penting mengingat faktor internal individu yang menilai, yakni subjektivitas. Meski begitu, hal ini dapat diantisipasi dengan sebuah norma atau standar untuk sebuah tes, yang sekali lagi bervariasi. 4) Faktor Eksternal Tes; Faktor eksternal yang dapat memengaruhi tes terdapat pada data yang diperoleh tes. Masalah yang cenderung timbul adalah data yang diperoleh tidak merepresentasikan populasi yang disasar. Ada 3 hal yang dapat menjadi sumber irreliabilitas dari faktor eksternal: i) Kesalahan sampling, yakni kesalahan yang diakibatkan oleh sampel terpilih yang digunakan untuk mewakili populasi.

Ini mungkin terjadi karena demografis yang tidak sesuai atau kurangnya jumlah sampel. ii) Kesalahan metodologi, yakni kesalahan dalam membuat atau menerapkan metodologi. iii) Kesalahan sistematis; terjadi pada responden dan terbagi menjadi dua jenis yakni kesalahan sistematis, seperti underreporting atau overreporting, dan kesalahan non-sistematis, seperti lupa, tidak terdeteksi, dan kesalahpahaman.

Tes yang reliabel merupakan tes yang baik karena menghasilkan pengukuran yang konsisten pada kesempatan dan sampel yang berbeda. Tes dapat disebut reliabel apabila memenuhi setidaknya satu dari enam alternatif definisi reliabilitas (Allen & Yen, 1979; Supratiknya, 2014). Pertama, tes dikatakan reliabel apabila skor tampak pada sebuah tes berkorelasi dengan skor tampak tes yang paralel. Kedua, tes dikatakan reliabel apabila perimbangan varians pada skor tes dapat menjelaskan dengan hubungan linear skor tes tersebut dengan skor tes yang pararel. Ketiga, tes dikatakan reliabel apabila perbandingan antara rasio varians skor sesungguhnya terhadap rasio varians skor tampak menghasilkan nilai yang diinginkan.

Keempat, tes dikatakan reliabel apabila nilai kuadrat dari korelasi skor tampak dengan skor sesungguhnya menghasilkan nilai yang diinginkan.

Kelima, tes dikatakan reliabel apabila 1 dikurangi nilai kuadrat dari korelasi skor tampak dengan skor kesalahan menghasilkan nilai yang diinginkan.

Keenam, tes dikatakan reliabel apabila 1 dikurang perbandingan antara rasio varians skor kesalahan terhadap rasio varians skor tampak menghasilkan nilai yang diinginkan.

Enam definisi reliabilitas yang dijabarkan akan menghasilkan koefisien reliabilitas yang penting untuk memastikan kesalahan pengukuran yang sekecil mungkin. Ada banyak pertimbangan untuk menentukan nilai koefisien reliabilitas yang baik. Opini yang paling populer adalah tes dengan koefisien reliabilitas sekitar 0,7 dapat dianggap reliabel.

Ada beberapa alternatif cara yang dapat dilakukan untuk mengestimasi nilai reliabilitas tes (American Educational Research Association et al., 2014; Cohen et al., 2013; Crocker & Algina, 2008; Supratiknya, 2014):

a. Pendekatan Tes Ulang

Nilai reliabilitas dengan pendekatan ini dilakukan dengan mengkorelasikan hasil sebuah tes yang diberikan pada responden yang sama pada waktu yang berbeda. Semakin besar kesamaan hasil tes awal dan waktu setelahnya, semakin reliabel suatu tes. Pendekatan ini lebih ideal untuk tes kepribadian atau sejenisnya yang cenderung stabil dari waktu ke waktu ketimbang inteligensi. Pendekatan ini memiliki kelemahan mengingat responden dapat membawa pengaruh yang diberikan oleh tes awal. Maka dari itu, penting untuk mempertimbangkan rentang waktu antara tes awal dan setelahnya.

Rentang waktu yang terlalu dekat atau jauh akan berdampak pada ingatan, perasaan, dan kemungkinan modifikasi respons pada responden (Allen & Yen, 1979). Tidak ada ukuran pasti interval waktu, tetapi Cohen & Swerdlik (2009) menyarankan interval waktu kurang dari 6 bulan.

b. Pendekatan Bentuk Pararel atau Alternatif

Nilai reliabilitas dengan pendekatan ini dilakukan dengan

tes pararel bila tes tersebut memiliki rerata varians dan skor tes yang sama atau mirip. Sedangkan tes dianggap alternatif bila tes tersebut merupakan tes yang sama dengan konstruksi yang berbeda. Pendekatan ini dilakukan dengan memberikan alat tes yang ingin diuji reliabilitasnya beserta tes pararel atau alternatifnya kepada responden.

Meskipun pendekatan ini mengurangi kerugian yang disebabkan waktu, baik dalam hal efisiensi maupun bias atau inkonsistensi, pendekatan ini membuat penyelenggara tes perlu usaha lebih untuk membuat atau mencari tes bentuk pararel atau alternatif. Selain itu, durasi atau manajemen waktu terkait pengetesan juga dapat memengaruhi performa responden.

c. Pendekatan Pengamat atau Penilai

Nilai reliabilitas dengan pendekatan ini dapat dilakukan dengan menganalisis korelasi penilaian antar penilai dan/atau pengamat.

Pendekatan ini cenderung digunakan pada tes dengan sistem tingkat (ranking) yang bersifat nonverbal seperti perilaku depresi, atau perilaku lain yang dinilai dengan objektif tetapi subjektif karena dipengaruhi oleh bias individual (diluar kurva normal) baik perilaku nonverbal responden maupun pemahaman penilai.

d. Pendekatan Konsistensi Internal

Nilai reliabilitas dengan pendekatan ini dilakukan dengan mengkorelasikan sebuah tes terhadap tes itu sendiri. Pendekatan ini merupakan cara yang paling populer karena cenderung efisien dari segi waktu dan usaha. Dengan pendekatan ini, responden tes hanya mengerjakan satu tes dalam satu waktu. Pendekatan ini juga meniadakan carryover effect dan practice effect.

Ada beberapa cara untuk mendapatkan nilai koefisien reliabilitas konsistensi internal (Crocker & Algina, 2008; Supratiknya, 2014):

i. Metode belah dua

Metode ini membagi tes ke dalam dua bagian sehingga sebuah bagian dikorelasikan terhadap bagian yang lain. Kelemahan metode ini adalah tidak menghasilkan nilai koefisien yang unik dan kurang variasi. Lima cara untuk melakukan metode ini adalah berikut:

• Gasal-genap

Metode ini mengelompokkan butir bernomor gasal ke dalam satu kelompok dan butir bernomor genap ke dalam kelompok yang lain.

• Belah tengah

Metode ini mengelompokkan berdasarkan nomor butir. Butir dengan nomor satu sampai butir di posisi tengah dikelompokkan dan butir di posisi tengah sampai butir terakhir ke dalam kelompok yang lain.

• Gabungan urutan taraf kesukaran dan gasal-genap

Metode ini terlebih dahulu mengurutkan butir berdasarkan taraf kesukaran. Selanjutnya butir bernomor gasal dikelompokkan ke dalam satu kelompok dan butir bernomol genap ke dalam kelompok yang lain.

• Acak

Metode ini mengelompokkan butir secara acak ke dalam dua kelompok.

• Subset acak tercocokan

Metode ini terlebih dahulu mengestimasi taraf kesukaran butir (p) dan korelasi butir-total (rix). Butir kemudian di plot pada grafik dengan (p) pada satu sumbu dan (rix) pada sumbu yang lain. Dari hasil plot, tiap skor yang berdekatan dikelompokan ke dalam kelompok skor atas dan kelompok skor bawah.

ii. Metode gugus data yang berbasis kovarians butir

Metode ini menggunakan gugus data tes dan mengestimasi

mana setiap butir bertentangan dengan butir lain. Semakin kecil pertentangan antar butir, semakin tinggi koefisien relaibilitas.

Metode ini dibuat untuk mengatasi kelemahan metode belah dua.

Ada tiga cara yang lazim dilakukan dengan metode ini. Tiga cara tersebut memiliki hasil yang setara. Metodenya adalah berikut:

• Alpha Cronbach

Metode ini dilakukan dengan mengelompokkan butir sebanyak jumlah butir itu sendiri sehingga didapat performansi sebuah butir terhadap seluruh butir yang lain. Metode ini dapat diestimasi menggunakan rumus berikut:

∝ = 𝑛

𝑛 − 1(1 −∑_𝑖=1^𝑛 𝜎_𝑖² 𝜎_𝑥² )

∝ = Koefisien Alpha Cronbach 𝑛 = Jumlah Butir

𝜎_𝑖² = Varians Butir

𝜎_𝑥² = Varians Total Skor Tes

• Kuder Richardson

Sama seperti Alpha Cronbach, metode Kuder Richardson dibuat untuk mengatasi kekurangan metode belah dua. Rumus yang mereka ciptakan disebut Kuder-Richardson 20 (KR20) dan Kuder-Richardson 21 (KR21) setelah setiap butir tes terbukti memiliki taraf kesukaran yang sama. Banyak pertentangan terkait rumus KR20 yang mirip dengan rumus alpha cronbach, tetapi sejatinya Cronbach sendirilah yang pertama kali mengembangkan rumus KR20 (Gregory, 2014).

• Metode Hoyt

Metode ini dilakukan dengan menggunakan responden dan butir sebagai sumber varians. Hasil analisis metode ini menghasilkan

atau dibuat dalam tabel ringkasan analisis varians. Metode ini dapat diestimasi menggunakan rumus berikut:

𝜌_𝑋𝑋^′ = 𝑀𝐾_{𝑜𝑟𝑎𝑛𝑔}− 𝑀𝐾_{𝑟𝑒𝑠𝑖𝑑𝑢} 𝑀𝐾_{𝑜𝑟𝑎𝑛𝑔}

𝜌_𝑋𝑋^′ = Koefisien Reliabilitas 𝑀𝐾_{𝑜𝑟𝑎𝑛𝑔} = Varians skor tampak 𝑀𝐾_{𝑟𝑒𝑠𝑖𝑑𝑢} = Varians skor kesalahan

iii. Standard Error of Measurement (SEm) pada Reliabilitas

Nilai reliabilitas dengan pendekatan ini dilakukan dengan mengestimasi seberapa besar penyimpangan atau kesalahan yang dilakukan oleh alat ukur. Ukuran penyimpangan alat ukur bisa dijelaskan dalam bentuk varians atau standar deviasi kesalahan pengukuran (Supratiknya, 2014). Semakin kecil penyimpangan alat ukur, maka semakin kecil standar deviasi, maka semakin tinggi reliabilitas alat ukur. Ukuran penyimpangan inilah yang lazim disebut Standard Error of Measurement (SEm). SEm dapat diestimasi dengan rumus berikut:

𝜎_𝐸 = 𝜎_𝑋. √1 − 𝜌_𝑋𝑋^′

𝜎_𝐸 = Standard Error of Measurement (SEm) 𝜎_𝑋 = Standar deviasi skor tes

𝜌_𝑋𝑋^′ = Koefisien Reliabilitas

Estimasi SEm yang dikalikan dengan Z-score akan menghasilkan estimasi confidence interval. Penelitian psikometri pada umumnya menggunakan estimasi confidence interval 95%.

Estimasi reliabilitas dalam penelitian ini menggunakan pendekatan konsistensi internal, yakni estimasi dengan mengkorelasikan IST-70 dengan IST-70 sendiri. Pendekatan ini dipilih karena lebih efisien dari pada pendekatan lain dan berusaha memanfaatkan data yang tersedia. Penelitian ini akan menggunakan gugus data IST-70 dan mengestimasi kovarians antar butir sehingga menghasilkan koefisien alpha cronbach (∝). Metode ini dipilih karena menghasilkan nilai yang lebih representatif dan lebih unik ketimbang metode belah tengah (Gregory, 2014). Sebagai referensi lain, penelitian ini juga menghadirkan estimasi nilai Standard Error of Measurement (SEm). Nilai SEm akan memberi pemahaman terkait ukuran

penyimpangan atau kesalahan pengukuran yang mungkin terjadi pada skor seorang responden. Tes yang baik akan menghasilkan estimasi SEm yang cenderung kecil. Terakhir, nilai confidence interval 95% ditampilkan sehingga memberi informasi terkait probabilitas variansi skor responden pada 95 kali dari setiap 100 kali pengetesan.

Dalam dokumen Analisis kualitas psikometrik alat ukur Intelligenz Struktur Test 1970 (IST-70) hasil adaptasi Universitas Padjajaran (Halaman 45-54)