Kualitas Psikometrik - Karakteristik Tes yang Baik

BAB II. LANDASAN TEORI

C. Karakteristik Tes yang Baik

2. Kualitas Psikometrik

Kualitas Psikometrik merupakan syarat lain yang digunakan untuk melihat suatu tes baik atau buruk. Ada tiga hal yang menjadi karakteristik kualitas psikometrik, yaitu reliabilitas, validitas dan kualitas aitem (Friedenberg, 1995).

a. Reliabilitas

Ada beberapa sumber eror dalam tes psikologis antara lain variasi pada sebuah tes, sampel yang terstruktur dan variasi antar tes (Nunnally, 1970). Sejumlah eror tersebut membuat keterpercayaan pengukuran psikologis menjadi berkurang. Estimasi reliabilitas dilakukan guna mengetahui apakah tes menunjukkan keterpercayaan hasil ukur (Azwar, 1999).

Reliabilitas alat ukur dinyatakan dalam bentuk koefisien korelasi. Angka atau koefisien korelasi yang menunjukkan reliabilitas disebut koefisien reliabilitas (rxx’) (Supratiknya, 1998; Gregory, 1996).

Ada tiga macam pendekatan reliabilitas (Azwar, 1997), yaitu:

1) Pendekatan tes ulang (test-retest method)

Pendekatan tes-ulang dilakukan dengan menguji subyek dua kali dengan tes yang sama kemudian

mengkorelasikan hasil-hasilnya. Reliabilitas bernilai 1.00 apabila skor tampak pada semua subyek dalam pengujian pertama memiliki hubungan linear yang sempurna dengan skor tampak dalam pengujian kedua (Allen & Yen, 1979; Friedenberg, 1995; Supratiknya, 1997).

Kelemahan pendekatan ini adalah adanya carry over

effect antar pengetesan dimana pengetesan pertama mempengaruhi pengetesan kedua. Hal ini disebabkan testee masih mengingat jawaban-jawaban pada pengetesan pertama sehingga terjadi overestimasi. Selain overestimasi, dampak lain yang muncul apabila jarak pengetesan terlalu panjang adalah munculnya underestimasi sebagai akibat perubahan jawaban yang dipengaruhi suasana hati, terutama pada tes-tes kepribadian (Allen dan Yen, 1979).

Selain carry over effect, ada kelemahan lain dari

pendekatan reliabilitas ini, yaitu adanya practice effect yang

berupa peningkatan kinerja testee pada pengetesan kedua. Hal ini akan meningkatkan perolehan skor pada pengetesan kedua dibandingkan pengetesan pertama sehingga koefisien reliabilitas tes tersebut menjadi rendah (Allen dan Yen, 1979).

2) Pendekatan bentuk paralel (parallel-forms)

Koefisien reliabilitas bentuk paralel diperoleh dengan menghitung korelasi skor tampak antara dua tes paralel yang

diberikan pada kelompok subyek yang sama (Azwar, 1986). Pendekatan reliabilitas tes paralel dilakukan dengan memberikan dua tes yang dianggap sejajar pada kesempatan (waktu) berbeda (Supratiknya, 1997).

Keterbatasan utama pendekatan ini terletak pada sulitnya menyusun dua tes yang benar-benar sama dalam tujuan ukur, batasan objek ukur dan operasionalisasinya, indikator-indikator perilakunya, banyaknya aitem, format aitem, taraf kesulitan aitem dan berbagai aspek tes lainnya (Azwar, 1997).

3) Pendekatan konsistensi internal

Pendekatan konsistensi internal didasarkan pada rata-rata korelasi antar aitem-aitem di dalam tes. Pendekatan ini dilakukan dengan menggunakan satu tes yang dikenakan sekali pada sekelompok subyek. Hal ini dilakukan guna menghindari adanya carry over effect dan practice effect seperti yang terjadi pada pendekatan-pendekatan sebelumnya. Dalam pendekatan ini seakan-akan dilakukan pembelahan tes menjadi bagian-bagian sebanyak aitemnya, sehingga setiap belahan terdiri hanya dari satu aitem (Azwar, 1987, 1997; Nunnally, 1978).

Ada dua cara dalam pendekatan konsistensi internal yang paling banyak digunakan, yaitu:

a) Koefisien alpha

Koefisien alpha dari Cronbach adalah rumus dasar

untuk mencari estimasi reliabilitas konsistensi internal pada kasus yang umum. Rumus ini dihitung berdasarkan varians masing-masing aitem tes dan pada dasarnya merupakan estimasi dari rata-rata koefisien belah dua. Reliabilitas

keseluruhan tes akan baik apabila pembagian (Y1 dan Y2)

benar-benar mencerminkan τ-equivalen. Begitu pula

sebaliknya apabila pembagian tes tidak seimbang, maka

koefisien alpha akan menunjukkan reliabilitas yang buruk

pula (Allen dan Yen, 1979; Azwar, 1997; Friedenberg, 1992).

b) Split half

Data pada teknik belah dua ini dihasilkan dari satu kali pengetesan, kemudian aitem – aitem tes dibelah menjadi dua bagian dimana masing – masing belahan merupakan sejenis bentuk pengganti bagi yang lain. Berikut merupakan cara – cara membelahnya (Allen dan Yen, 1979; Supratiknya, 1998):

(1) Metode gasal – genap

Metode ini dilakukan dengan membelah tes menjadi dua bagian melalui pengelompokkan aitem – aitem yang bernomor urut gasal dan bernomor urut genap. Setelah itu, dilakukan penghitungan korelasi antara kedua skor tersebut. Metode ini dapat diterapkan apabila soal berjumlah genap sehingga pembagiannya dapat merata (Azwar, 1987; Supratiknya, 1998).

(2) Metode penggal tengah

Metode ini dilakukan dengan membagi tes menjadi dua tengahan. Tengahan pertama dimulai dari aitem bernomor urut satu sampai bernomor urut tengah; tengahan kedua dimulai dari aitem bernomor urut tengah sampai aitem bernomor urut terakhir. Setelah membagi ke dalam dua tengahan, dilakukan penghitungan korelasi antara kedua skor tersebut.

Metode penggal tengah memiliki kelemahan yang disebabkan sebagian testee yang tidak selesai mengerjakan seluruh tes sehingga skor pada bagian pertama lebih tinggi daripada skor bagian kedua. Selain

itu, kelemahan yang lain adalah adanya practice effect,

skor bagian kedua lebih tinggi daripada skor bagian pertama (Supratiknya, 1998).

(3) Metode “matched random subsets”

Metode ini dilakukan dengan menghitung taraf kesulitan aitem (p) dan korelasi biserial atau point biserial antara skor aitem dengan skor tes total (rit). Setiap aitem diplot pada grafik, kemudian dilakukan pemasangan antar aitem yang berdekatan untuk menentukan skor atas dan skor bawah. Setelah itu, penghitungan korelasi skor atas dengan skor bawah dilakukan guna mendapatkan koefisien reliabilitas (Supratiknya, 1998).

b. Validitas

Validitas suatu tes merupakan taraf sejauh mana skor murni ditentukan oleh sifat-sifat yang relevan dengan tujuan tes (Supratiknya, 1998). Suatu alat tes dapat dikatakan mempunyai validitas yang tinggi apabila alat tersebut menjalankan fungsinya atau memberi hasil ukur yang sesuai dengan maksud dilaksanakannya pengukuran tersebut (Azwar, 1999).

Ada tiga cara mengestimasi validitas tes yang sering digunakan, yaitu (Allen & Yen, 1979):

1) Validitas Isi

Validitas isi merupakan usaha untuk melihat keterkaitan logis antara tujuan dari pengukuran dengan prosedur untuk memperoleh skor (Kane dalam Santoso, 2010). Validasi isi dapat ditentukan melalui pendapat profesional dalam proses telaah soal. Validitas isi dilakukan

untuk memberi definisi tentang universe of content

(Suryabrata, 1984).

Ada beberapa keberatan mengenai validitas isi sebagai model untuk memvalidasi pengukuran (Santoso, 2010). Konsep validasi isi memiliki keterbatasan dalam hal kemampuannya melingkupi konstruk-konstruk abstrak khususnya di dunia psikologi, keterlibatan subyektivitas dan bias konfirmatoris penilai (Kane dalam Santoso, 2010), ketidakmampuan untuk memberikan bukti langsung terkait dengan validitas tes sebagai keberatan utamanya (Messick dalam Santoso, 2010), serta ketidakmampuan untuk memberikan bukti validasi dari proses-proses kognitif yang sesungguhnya terjadi saat pengerjaan tes (Emberston dalam Santoso, 2010).

Ada dua macam tipe validitas isi, yaitu (Azwar, 1986):

a) Validitas muka (face validity)

Validitas muka tercapai apabila pemeriksaan terhadap aitem-aitem tes memberi kesimpulan yang

lebih banyak diletakkan pada common sense atau akal

sehat bahwa tes tersebut mengukur aspek yang relevan.

Validasi didasarkan pada lay judgement dan dilakukan

oleh orang awam akan psikologi, terutama calon subyek yang hendak dites (Allen dan Yen, 1979).

b) Validitas logis (logical validity)

Validitas logis digunakan untuk melihat apakah aitem-aitem mempunyai kaitan logis dengan definisi atributnya. Tipe validitas ini dianggap lebih mendalam dibanding validitas muka (Allen dan Yen, 1979).

2) Validitas Konstruk

Validitas konstruk merujuk pada sejauh mana suatu tes mengukur konstruk teoritis atau sifat yang hendak diukur (Supratiknya, 1998). Ada dua metode yang diakui oleh para ahli di bidang ini, yaitu (Allen dan Yen, 1979):

a) Validitas faktorial

Validitas faktorial adalah bentuk validitas konstruk yang diselidiki melalui analisis faktor (Allen & Yen,

1979). Penerapan analisis faktor didasarkan pada anggapan meski perilaku manusia itu sangat banyak ragamnya, namun perilaku yang sangat beragam itu didasari oleh sejumlah terbatas faktor saja. Validitas ini secara praktis mudah dilakukan tetapi secara konseptual membutuhkan penguasaan teoritis yang kuat tentang atribut yang hendak diukur (Supratiknya, 1998). Analisis faktor dapat menemukan (mendefinisikan) faktor-faktor yang mendasari perilaku yang beragam. Hal yang dilakukan biasanya adalah untuk mencari apakah pola muatan faktor yang diketemukan mirip (merefleksikan sampai batas tertentu) dengan teori yang mendasarinya. Peran ilmuwan menjadi penting karena

pendapat profesional (professional judgement)

menentukan makna dari proses validitas (Hair, Anderson, Tatham, dan Black, 1995).

Analisis faktor memiliki dua bentuk, yaitu konfirmatori dan eksploratori (Hair, Anderson, Tatham, dan Black, 1995). Analisis faktor konfirmatori bertujuan untuk mengevaluasi tingkat keakurasian prediksi-prediksi faktor-faktor yang dimiliki oleh sebuah tes. Cara yang digunakan dalam analisis ini adalah dengan mengkonfirmasikan apakah skor hasil tes

dan variabel-variabel tes memiliki kesesuaian atau sejalan dengan sebuah pola prediksi tertentu yang ingin diungkap dari konstrak teoritisnya. Analisis faktor eksploratori digunakan untuk mencari struktur kesalinghubungan antara variabel dan sebagai metode untuk mengurangi jumlah data yang dianalisis. Jumlah hasil faktor yang dihasilkan biasanya lebih sedikit dibandingkan dengan jumlah variabel yang diteliti (Hair, Anderson, Tatham, dan Black, 1995).

b) Validitas Multisifat - Multimetode

Pengukuran validitas yang dikembangkan oleh Campbell dan Fiske pada tahun 1959 ini dihitung dengan mengkorelasikan dua atau lebih sifat melalui dua metode atau lebih. Dasar pemikiran proses validasi ini adalah bahwa suatu tes harus berkorelasi tinggi dengan variabel yang secara teori berkorelasi tinggi serta tak berkorelasi dengan variabel lain yang secara teori tidak berkorelasi (Allen & Yen, 1979).

3) Validitas berdasar Kriteria

Validitas berdasar kriteria digunakan untuk melihat sejauhmana hasil pengukuran dengan menggunakan alat tes psikologis dapat dihubungkan dengan kriteria. Kriteria

adalah tingkah laku tertentu yang hendak diprediksikan dengan menggunakan skor-skor tes tersebut. Validitas berdasar kriteria ditunjukkan dengan korelasi antara skor pada alat yang dipersoalkan dengan skor pada alat yang dijadikan kriteria, sehingga menghasilkan koefisien validitas (Allen dan Yen, 1979; Supratiknya, 1998).

Validitas berdasar kriteria ini memiliki kelemahan utama berupa kesulitan untuk menentukan atau menemukan kriteria yang dianggap layak. Kriteria harus merupakan phasil pengukuran yang reliabel dan valid (Santoso, 2010).

Validitas berdasar kriteria ini dibedakan menjadi dua (Allen & Yen, 1979), yaitu:

a) Validitas saat sama (concurrent validity)

Validitas saat sama digunakan ketika skor tes dan skor kriteria diperoleh dalam waktu yang relatif sama (Allen & Yen, 1979).

b) Validitas prediktif (predictive validity)

Validitas prediktif menggunakan skor tes untuk memprediksi perilaku. Validitas ini digunakan ketika pengambilan skor kriteria tidak bersamaan dengan pengambilan skor tes (Allen & Yen, 1979).

c. Analisis Aitem

Tes dapat dikatakan berhasil menjalankan fungsinya dengan baik apabila mampu memberikan hasil ukur yang cermat dan akurat sehingga tes tersebut dapat memberikan informasi yang berguna. Maka dari itu, tes yang telah selesai disusun, masih perlu diuji kualitas seluruh aitemnya secara empirik melalui analisis aitem. Ada beberapa parameter yang digunakan dalam analisis aitem (Azwar, 1987; Supratiknya, 1998):

1) Indeks Kesukaran Aitem

Indeks kesukaran aitem merupakan rasio antara subyek yang menjawab aitem dengan benar dan banyaknya subyek yang mengikuti tes dan memenuhi syarat disebut sebagai indeks kesukaran aitem (Supratiknya, 1998). Indeks kesukaran aitem dilambangkan oleh huruf p. Harga p berkisar antara 0 sampai 1. Semakin besar harga p, maka aitem yang bersangkutan semakin mudah, dan sebaliknya, semakin kecil harga p berarti aitem yang bersangkutan semakin sulit (Supratiknya, 1998). Skor tes menghasilkan variabilitas maksimum apabila tingkat kesulitan (p) dari semua aitem berada di sekitar 0.50 (Anastasi & Urbina, 1997).

2) Indeks Daya Diskriminasi Aitem

Indeks daya diskriminasi aitem adalah kemampuan aitem dalam membedakan antara kelompok yang mempunyai

kemampuan tinggi dan kelompok yang mempunyai kemampuan rendah. Ada dua cara menentukan indeks diskriminasi aitem, yaitu dengan melihat konsistensi antara aitem dengan tes secara keseluruhan maupun dengan membagi kelompok subyek yang telah diurutkan dari skor total tertinggi ke terendah menjadi dua bagian (Allen & Yen, 1979; Supratiknya, 1998).

Perhitungan indeks daya diskriminasi aitem dengan melihat keselarasan atau konsistensi antara aitem dengan tes secara keseluruhan bertujuan untuk memilih aitem-aitem yang mengukur hal yang sama dengan apa yang diukur oleh tes sebagai keseluruhan (Azwar, 1997). Prosedur pengujian konsistensi aitem total akan menghasilkan koefisien korelasi aitem total (rix). Semakin tinggi korelasi positif antara skor aitem dengan skor tes berarti semakin tinggi konsistensi antara aitem tersebut dengan tes keseluruhan yang berarti semakin tinggi daya diskriminasinya. Bila koefisien korelasinya rendah mendekati nol berarti fungsi aitem tersebut tidak cocok dengan fungsi ukur tes dan daya diskriminasinya tidak baik.

Perhitungan indeks diskriminasi aitem juga dapat dilakukan dengan membagi kelompok subyek yang telah diurutkan dari skor total tertinggi ke terendah menjadi dua bagian guna menentukan kelompok tinggi dan kelompok

rendah. Bagian pertama merupakan skor total tinggi sehingga disebut bagian atas (U) dan bagian kedua merupakan bagian bawah (L). Sampel dalam jumlah besar akan didistribusikan secara normal dan digunakan dalam tes-tes yang dibakukan adalah lazim untuk bekerja dengan 27% bagian atas dan 27% bagian bawah dari distribusi kriteria (Anastasi & Urbina, 1998; Supratiknya, 1998).

Daya diskriminasi yang baik terdapat pada aitem yang tidak terlalu mudah dan juga tidak terlalu sukar, yaitu apabila berkisar antara 0.30 sampai dengan 0.70. Semakin besar indeks diskriminasi berarti aitem tersebut makin mampu membedakan antara mereka yang menguasai materi yang diujikan dan mereka yang tidak menguasai materi yang diujikan (Allen & Yen, 1979; Anastasi & Urbina, 1998; Supratiknya, 1998).

3) Efektivitas Distraktor

Efektivitas distraktor menunjukkan sejauh mana distraktor yang merupakan pilihan jawaban selain kunci telah melakukan fungsi sebagaimana mestinya atau tidak. Efektivitas distraktor diperiksa untuk melihat apakah semua distraktor telah dipilih oleh lebih banyak subyek kelompok rendah, sedangkan subyek kelompok tinggi hanya sedikit yang memilihnya. Analisa efektivitas distraktor dapat dilihat dengan dua kriteria berikut:

a) Jumlah pemilih distraktor pada kelompok rendah lebih banyak daripada kelompok tinggi. Kriteria ini berkaitan dengan daya diskriminasi aitem.

b) Ada pemilih untuk setiap alternatif jawaban. Distraktor yang tidak ada pemilihnya dimungkinkan karena distraktor tersebut tampak jelas sebagai pilihan yang salah (Azwar, 1987; Supratiknya, 1998).

4) Koefisien Alfa

Koefisien Alfa merupakan fungsi langsung dari jumlah aitem serta besarnya interkorelasi antar-aitem. Hal ini membuat koefisien alfa dapat dinaikkan dengan menambah jumlah aitem maupun meningkatkan besarnya interkorelasi. Fungsi dari koefisien ini adalah untuk menetapkan konsistensi internal skala secara keseluruhan (Prakosa, 1998). Prosedur

pengujian koefisien Alfa dilakukan dengan menghitung dan menggugurkan aitem yang menurunkan koefisien reliabilitas hingga tidak ada lagi aitem yang menurunkan koefisien reliabilitas(Prakosa, 1998).

Ada dua syarat dalam menentukan apakah suatu tes tergolong baik atau tidak, yakni dari segi perancangan dan kualitas psikometrik. Tes dipandang baik dari segi perancangan apabila tes tersebut memiliki tujuan pengukuran yang jelas, berisi hal-hal yang khusus dan terstandardisasi, serta memiliki prosedur skoring yang terstandardisasi. Tes dianggap baik dari sisi kualitas psikometrik apabila tes tersebut telah lolos dari pengujian reliabilitas, validitas dan kualitas aitem (Friedenberg, 1995).

Dalam dokumen Evaluasi kualitas psikometrik wechsler adult intelligence scale - USD Repository (Halaman 44-60)