Validitas isi menunjukkan sejauhmana pertanyaan, tugas atau butir dalam suatu tes atau instrumen mampu mewakili secara keseluruhan dan proporsional perilaku sampel yang dikenai tes tersebut. Validitas didapat melalui penurunan konstrak ke dimensi, indikator sampai ke aitem. Pengertian mampu mewakili secara keseluruhan dan proporsional tidak saja menunjukkan bahwa alat ukur tersebut harus komprehensif isinya akan tetapi harus pula memuat hanya isi yang relevan dan tidak keluar dari batasan tujuan ukur. Walaupun isi atau kandungannya komprehensif tetapi bila suatu alat ukur mengikutsertakan pula item-item yang tidak relevan dan berkaitan dengan hal-hal di luar tujuan ukurnya, maka validitas alat ukur tersebut tidak dapat dikatakan memenuhi ciri validitas yang sesungguhnya. Validitas isi terbagi menjadi 2 (dua), yaitu face
validity (validitas tampang) dan logical validity (validitas logis)
1.1. Face Validity (Validitas Tampang)
Validitas tampang mengacu pada tampang dari suatu alat ukur. Validitas ini adalah tipe validitas yang paling rendah signifikasinya karena hanya didasarkan pada penilaian selintas mengenai suatu alat ukur. Namun demikian, validitas ini sangat penting. Tampang baik bentuk maupun instruksi yang bertujuan mendapatkan apresiasi subjek sehingga termotivasi untuk mengerjakan alat ukur tersebut sesuai dengan diri sebenarnya. Apabila suatu alat ukur telah tampak sesuai dengan apa yang ingin diukur maka dapat dikatakan validitas tampang telah terpenuhi. Validitas tampang dapat dilakukan dengan cara melakukan desain yang tepat agar subjek memiliki motivasi ketika mengerjakan alat ukur, tempat dan waktu yang dikondisikan sedemikian rupa agar subjek merasa tenang ketika mengerjakan alat ukur, kata pengantar yang membuat subjek merasa dihargai dan apresiasi kepada subjek atas kerjasamanya atau kesediaan mengerjakan alat ukur. Dengan alasan kepraktisan, banyak alat ukur yang pemakaiannya terbatas hanya mengandalkan validitas tampang. Alat ukur atau
45 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i
instrumen psikologi pada umumnya tidak dapat menggantungkan kualitasnya hanya pada validitas tampang. Pada alat ukur psikologis yang fungsi pengukurannya memiliki sifat menentukan, seperti untuk kebutuhan diagnosis, dituntut untuk dapat membuktikan validitasnya yang kuat.
1.2. Logical Validity (Validitas Logis)
Validitas ini menunjukkan pada sejauhmana isi alat ukur merupakan representasi dari aspek atau dimensi yang hendak diukur. Validitas logis mencoba memastikan bahwa aitem sudah baik dan benar serta telah diturunkan melalui indikator perilaku secara tepat. Dengan kata lain, aitem selaras dengan indikator perilaku dan dimensinya dan pada akhirnya sesuai dengan konstrak dari alat ukur tersebut. Validitas logis disebut juga sebagai validitas sampling (sampling
validity).
Validitas logis sangat penting peranannya dalam penyusunan alat ukur, yaitu dengan memanfaatkan blue-print atau tabel spesifikasi. Penulisan aitem dan reviu penulisan aitem memiliki peran penting pada pengujian validitas ini. Oleh karena itu, suatu alat ukur harus dirancang sedemikian rupa sehingga benar-benar berisi hanya item yang relevan dan perlu menjadi bagian alat ukur secara keseluruhan. Suatu objek ukur yang hendak diungkap oleh alat ukur hendaknya harus dibatasi lebih dahulu kawasan perilakunya secara seksama dan konkrit. Batasan perilaku yang kurang jelas akan menyebabkan terikatnya aitem-aitem yang tidak relevan dan tertinggalnya bagian penting dari objek ukur yang seharusnya masuk sebagai bagian dari alat ukur yang bersangkuatan.
Layak tidaknya suatu aitem disimpulkan dari hasil penilaian (judgement) yang dilakukan oleh ahli berdasarkan logic. Judgement ini dapat ditingkatkan objektivitasnya jika dilakukan oleh banyak orang. Hasil penilaian ini dapat dinyatakan dalam bentuk indeks validitas isi seperti yang dinyatakan oleh Lawshe dengan CVR dan Aiken dengan indeks Aiken’s V.
Aiken (1985) merumuskan formula Aiken’s V untuk menghitung content-validity coefficient yang didasarkan pada hasil penilaian dari panel ahli sebanyak n orang
46 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i
terhadap suatu aitem dari segi sejauh mana aitem tersebut mewakili konstrak yang diukur. Formula yang diajukan oleh Aiken adalah sebagai berikut (Azwar, 2012).
lo = angka penilaian validitas terendah c = angka penilaian validitas tertinggi r = angka yang diberikan penilai s = r – lo
Cara lain untuk menilai validitas isi adalah dengan menentukan nilai CVR
(Content Validity Ratio). Untuk menentukan CVR, sejumlah Subject Matter Experts (SME) diminta untuk menilai apakah aitem kita penting/esensial bagi
operasionalisasi konstrak teoritik tes. Aitem yang esensial berarti aitem tersebut merepresentasikan dengan baik tujuan pengukuran. Lawshe (1975) mengusulkan bahwa setiap penilai / subject matter experts (SME) yang terdiri dari panel juri untuk menjawab pertanyaan untuk setiap aitem dengan tiga pilihan jawaban yaitu (1) esensial, (2) berguna tapi tidak esensial, (3) tidak diperlukan. Menurut Lawshe, jika lebih dari setengah panelis menunjukkan bahwa item penting/esensial, maka aitem tersebut memiliki setidaknya validitas isi. Formula untuk menentukan nilai CVR adalah sebagai berikut:
CVR = (2ne/n) – 1
ne : banyaknya SME yang menilai suatu item adalah esensial n : banyaknya SME yang melakukan penilaian
Jumlah rater yang disarankan adalah semakin banyak semakin baik karena semakin banyak rater nilai minimum yang diperlukan juga semakin kecil. Namun kualitas rater juga tetap harus dijaga, karena rater seharusnya adalah orang yang benar-benar mengerti tentang konstrak atau tujuan ukur alat ukur.
47 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i 2. Validitas Konstrak
Validitas konstrak merujuk pada sejauhmana alat ukur mengukur trait (konstrak) teoritik yang hendak diukurnya (Azwar, 2012). Validitas konstrak merupakan kelanjutan validitas isi. Aitem didapat melalui penulisan aitem. Kemudian, dilakukan analisis aitem baik secara kuantitatif maupun kualitatif. Aitem tersebut kemudian diuji konstrak teoritisnya. Pengujian dilakukan melalui pengambilan data di lapangan. Dengan cara, subjek diminta untuk mengisi skala/alat ukur yang telah dibuat. Data pengujian alat ukur dilihat konstrak yang membentuk melalui analisis statistik. Prosedur pengujian validitas konstrak berasal dari hasil komputasi interkorelasi diantara berbagai hasil test dan kemudian diikuti oleh hasil test dan kemudian diikuti oleh analisis lebih lanjut terhadap matriks korelasi yang diperoleh, melalui berbagai metode. Pengukuran validitas konstruk merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai trait (sifat) yang diukur. Ada berbagai metode dalam menganalisis validitas konstrak. Metode yang umum digunakan adalah multitrait-multimethod dan analisis faktor.
2.1. Multitrait-multimethod
Metode ini diperkenalkan oleh Campbell dan Fiske (1959), bahwa harus ada dua atau lebih metode. Validitas dengan multitrait-multimethod digunakan dengan menggunakan lebih dari satu macam metode untuk mengukur lebih dari satu macam trait. Asumsi dasar dari metode ini adalah, Trait yang sama meskipun diukur dengan dua / berbagai metode yang berbeda seharusnya hasil pengukuran menunjukkan korelasi yang tinggi (validitas konvergen) atau sebaliknya, konstrak yang berbeda jika dilakukan uji korelasi maka seharusnya ia tidak memiliki korelasi atau berkorelasi rendah (validitas diskriminan).
48 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i
Matriks validasi pendekatan multitrait-multimethod
A1 B1 A2 B2 A1 T R T R B1 T R T
A2 T T
B2 T
Keterangan: Huruf=Trait; Angka=Metode; T=Tinggi; R=Rendah Ilustrasi:
Dasar pemikiran dalam validitas dengan pendekatan ini adalah adanya validitas yang baik diperlihatkan oleh korelasi yang tinggi antara dua pengukuran terhadap trait yang sama oleh dua metode yang berbeda, atau korelasi yang rendah antara dua pengukuran terhadap trait yang sama oleh dua metode yang berbeda, atau korelasi yang rendah antara dua pengukuran terhadap trait yang berbeda walaupun menggunakan metode yang serupa. Pada ilustrasi, dapat dijelaskan bahwa skala-skala tersebut menunjukkan hasil ukur yang memiliki validitas konstruk yang baik. Perhatikan bahwa skala Kepuasan Pilihan 2 dan skala Kepuasan penskalaan Likert berkolerasi 0,768; skala Komitmen Pilihan 2 dan skala Komitmen penskalaan Likert berkorelasi sebesar 0,810.
49 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i
2.2. Validitas Divergen
Validitas divergen mengacu pada uji validasi terhadap 2 (dua) konstrak yang berlawanan. Konstrak yang berlawanan jika diuji korelasinya menghasilkan korelagi yang negatif. Besarnya nilai suatu konstrak menunjukkan rendahnya nilai konstrak yang lain. Uji korelasi di antara kedua konstrak harus berdasarkan teori atau logika rasional yang melandasi hubungan tersebut sehingga dapat dikatakan kedua konstrak tersebut saling bertolak belakang (Periantalo, 2015). Ilustrasi:
2.3. Validitas Faktorial
Pendekatan ini, melibatkan perhitungan statistik yang memiliki persyaratan-persyaratan yang ketat. Validitas faktorial didapat melalui analisis faktor. Analisis faktor merupakan kumpulan prosedur matematik yang relatif kompleks, dengan melihat hubungan antara variabel-variabel dan menjelaskan saling hubungan tersebut dalam bentuk kelompok variabel yang terbatas yang disebut faktor. Pada dasarnya, adanya koefisien yang tinggi di antara dua alat ukur menunjukkan alat ukur tersebut mengukur faktor yang sama. Ada 2 (dua) metode dalam pengujian analisis faktor. Prosedur analisis faktor yang digunakan tergantung pada konstrak teori yang dibangun. Jika seorang pembuat alat ukur menganggap konstrak teoritis yang dibangun sudah mapan, maka analisis faktor yang digunakan adalah analisis faktor konfirmatori, tujuannya untuk mengkonfirmasi apakah teori yang dibangun untuk menyusun alat ukur tersebut sesuai dengan
50 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i
data empirik atau tidak. Kemudian, jika pembuat alat ukur merasa konstrak teoritisnya masih belum mapan, sehingga faktor-faktor yang membangun alat ukur tersebut belum teridentifikasi dengan jelas, maka prosedur analisis faktor yang digunakan adalah analisis faktor eksploratori. Pembuktian validitas konstrak dilakukan dengan menggunakan analisis faktor eksploratori digunakan untuk mengungkap trait (sifat) atau konstruk teoritis yang hendak diukur. Dalam arti, untuk mengetahui apakah butir-butir yang telah disusun menggunakan faktor-faktor yang membangun alat ukur tersebut. Metode analisis faktor dapat diukur dengan aplikasi pengolah data statistik. Analisis faktor ini dilakukan sebelum perakitan alat ukur final dan dapat menjadi landasan dalam perakitan alat ukur final. Dalam analisis faktor, hal yang dinilai adalah kualitas dari aitem yang membentuk alat ukur tersebut.
2.4. Validitas Kelompok
Validitas kelompok mengkonfirmasi alat ukur berdasarkan karakteristik kelompok tertentu. Kelompok yang dijadikan subjek adalah kelompok yang secara teori ataupun hasil penelitian memiliki karakteristik tersebut. Jika hasil pengukuran menunjukkan kelompok memiliki karakteristik tersebut, maka validitas kelompok dapat ditegakkan. Sebaliknya, kelompok yang tidak memiliki karakteristik pun bisa menjadi pembanding uji validitas ini, yang menunjukkan ia tidak memiliki karakteristik atau memiliki karakteristik yang rendah dari konstrak yang dikonfirmasi.
3. Validitas Kriteria
Validitas isi dan konstrak mengacu pada validitas internal dalam dirinya. Sedangkan, validitas kriteria mengacu pada hal yang di luar dirinya. Ukuran luar ini seharusnya memiliki hubungan teoritis dengan variabel yang di ukur oleh tes itu. Misalnya, tes inteligensi seharusnya berkorelasi positif dengan rata-rata nilai raport, skala motivasi atlet seharusnya berkorelasi positif dengan prestasi yang diraih. Validitas kriteria membandingkan alat ukur dengan suatu kriteria. Kriteria
51 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i
dapat juga berasal dari teori, hasil penelitian, maupun analisis rasional. Kriteria harus berupa skor sehingga dapat dikorelasikan dengan skor alat ukur yang ingin diketahui tingkat validitasnya. Semakin tinggi korelasi, maka semakin kuatlah validitas kriteria. Validitas ini dilakukan setelah alat ukur final dirakit.
Ada dua jenis validitas kriteria, yaitu: konkuren dan prediktif. Untuk validitas konkuren, kriteria bisa didapat sekarang. Validitas konkuren adalah kemampuan suatu alat ukur untuk mengukur gejala tertentu pada saat sekarang kemudian dibandingkan dengan alat ukur lain untuk konstrak yang sama. Misalnya, pada hasil tes kecerdasan CFIT, peneliti dapat langsung mengkorelasikannya dengan nilai raport yang ada. Semakin tinggi dan berkorelasi positif, maka semakin bagus alat ukur tersebut. Sedangkan, untuk validitas prediktif, kriteria tidak bisa langsung didapatkan melainkan menunggu nanti pada periode yang ditentukan. Misalnya, suatu psikotes diberikan kepada para calon mahasiswa pada waktu seleksi mahasiswa baru untuk memprediksi kinerja mereka dalam menghadapi materi perkuliahan, jika kegiatan dan hasil psikotes dikelola dengan baik dan jujur, maka mahasiswa yang memiliki skor rendah pada tes ini akan menjadi mahasiswa yang buruk nilai akademisnya dan mereka dengan skor tinggi akan menjadi mahasiswa yang tinggi nilai akademisnya. Jadi, nilai akademis didapat nanti setelah mahasiswa menempuh semester perkuliahan. Tujuannya adalah untuk melihat seberapa kuat hasil psikotes memprediksi nilai atau kinerja akademis mahasiswa.
Ada banyak alat ukur yang sudah terstandarisasi. Alat ukur ini dapat menjadi kriteria alat ukur yang baru yang dibuat dan ingin diuji validitasnya. Alat ukur yang mirip yang telah teruji properti psikometrisnya juga dapat menjadi kriteria untuk pengujian alat ukur yang baru dibuat ini. Saat alat ukur yang telah dibuat sudah memiliki properti psikometrit yang bagus, alat ukur tersebut bisa menjadi kriteria bagi alat ukur yang lain.
52 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i
Ilustrasi Validitas Konkuren:
53 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i NORMA DAN INTERPRETASI
Pada dasarnya, interpretasi terhadap skor alat ukur psikologi selalu bersifat normatif, yang artinya makna skor diacukan pada posisi relatif skor terhadap suatu norma sebagai parameter sehingga skor yang berupa angka dapat diinterpretasikan secara kualitatif, dan pada akhirnya memudahkan pembaca memahami hasil dari suatu pengukuran psikologis. Hal ini dapat dilakukan dengan memahami distribusi data skor kelompok yang umumnya mencakup banyaknya subjek (n) dalam kelompok, mean skor skala (M), deviasi standar skor skala (s) dan varians (s2), skor minimum (Xmin) dan maksimum (Xmax).
Skor mentah dari suatu alat ukur biasanya adalah penjumlahan dari skor aitem-aitem dalam alat ukur itu. Untuk skor komposit, penjumlahan dilakukan dengan memperhitungkan bobot dari masing-masing komponen alat ukur. Skor mentah saja belum dapat bercerita banyak tentang hasil dari pengukuran terhadap individu. Adapun agar dapat memberikan makna maka skor mentah harus diacukan pada suatu norma.
Norma Hipotetik vs Norma Empirik
Kaplan dan Saccuzzo (2009) yang dikutip oleh Widhiarso (2010) berdasarkan penafsiran skor, ada dua pendekatan dalam pengembangan alat ukur, yaitu pendekatan referensi berupa norma (norm referenced) dan referensi berupa kriteria (criterion referenced). Kedua pendekatan ini memiliki kegunaan yang berbeda sehingga memiliki implikasi yang juga berbeda. Mengembangkan alat ukur berbasis norma sedikit berbeda dengan alat ukur yang berbasis kriteria. Contoh tes berbasis norma adalah tes inteligensi. Tes inteligensi yang baik harus mampu membedakan antara individu yang memiliki inteligensi rendah dan yang tinggi. Alat ukur berbasis norma berusaha untuk membedakan antara orang dengan orang lainnya dalam populasi. Semakin alat ukur ini mampu membedakan orang dengan baik semakin dia menjalankan fungsinya. Dalam pendekatan ini semua orang harus kelihatan berbeda. Dalam artian, misalnya di
54 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i
dalam suatu kelas kuliah harus ada mahasiswa yang memiliki nilai A, B, C, D dan E karena ini merepresentasikan adanya perbedaan individual, kategori tinggi dan rendah ditentukan oleh posisi relatifnya di dalam populasi. Meskipun tergolong rendah (nilai 60), nilai tersebut terlihat paling tinggi jika di populasi kebanyakan orang-orang ternyata lebih rendah nilainya dari 60.
Pendekatan lain, berbasis pada kriteria membedakan orang berdasarkan penguasaan individu berdasarkan kriteria-kriteria yang telah di tentukan. Pendekatan ini berusaha membedakan individu yang telah memenuhi kriteria atau tidak memenuhi kriteria. Melalui tes ini semua siswa di dalam kelas dapat memperoleh nilai A jika semuanya telah mampu mendemonstrasikan penguasaan yang telah ditentukan. Pada pendekatan ini tinggi rendah sebuah skor ditentukan oleh titik potong (cut off). Nilai 60 terlihat rendah karena batas (atau kriteria) nilai penguasaan adalah 100.
Ada pengkategorian yang menggunakan bahan berupa statistik berasal dari data empirik (statistik empirik). Pada teknik ini rerata dan deviasi standar yang didapatkan dari data empirik dipakai sebagai referensi. Dalam artian, jika rerata dan deviasi di dalam populasi adalah M = 50 dan SD = 5, maka skor (misalnya X = 60) masuk dalam kategori tinggi (atau di atas rerata) karena melebihi M + 1SD atau X > 55. Cara lain, kita dapat menggunakan statistik dari alat ukur kita (statistik hipotetik). Pada teknik ini, rerata dan deviasi standar yang dipakai sebagai bahan penyusunan titik kategori didapatkan dari alat ukur. Misalnya anda memiliki alat ukur berisi 30 butir aitem yang menggunakan format Likert dengan 4 opsi yang diskor (0 hingga 4). Berdasarkan informasi ini didapatkan rerata skor hipotetik skala adalah M = 60. Didapatkan dari nilai tengah skor maksimal yang dapat diraih subjek pada alat ukur, yaitu X = 120 (30 x 4), dengan skor minimal yang dapat diraih subjek, yaitu X = 0 (30 x 0). Dari informasi ini juga didapatkan rentang hipotetik skor diperoleh subjek dari 120 – 0 = 100 (skor maksimal – skor minimal), sehingga deviasi standar (SD) skor alat ukur adalah 120 : 6 = 20. Berdasarkan informasi mengenai rerata dan deviasi standar yang
55 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i
sudah ditemukan ini maka didapatkan bahwa batas skor yang termasuk di atas rerata adalah X = 60 + 20 = 80. Berdasarkan hal ini maka skor (misalnya 60) masuk dalam kategori rata-rata karena kriteria di atas rata-rata adalah X > 80. Penggunaan statistik empirik menggunakan acuan pada subjek di populasi karena tinggi rendahnya sebuah makna skor tergantung dari populasi. Sama dengan halnya proses penormaan yang membutuhkan ukuran sampel besar dan heterogen, maka penggunaan statistik empirik dalam kategorisasi harus menggunakan ukuran sampel yang besar. Kita tidak dapat mengatakan skor (X= 60) itu tergolong sangat tinggi jika skor tersebut melebihi rata-rata orang. Untuk mengatakan skor 60 sangat tinggi kita harus mendapatkan informasi dari ribuan orang (banyak orang). Sedangkan, penggunaan statistik hipotetik menggunakan alat ukur sebagai acuan. Tinggi rendahnya skor subjek tergantung dari posisinya pada rentang skor yang memungkinkan diperoleh pada sebuah alat ukur. Skor X = 90 termasuk kategori sangat tinggi jika didapatkan dari hasil pengukuran oleh alat ukur 100 butir dengan opsi (ya/benar = skor 1 & tidak/salah = skor 0), namun skor X = 90 itu termasuk kategori sangat rendah jika didapatkan dari alat ukur yang berisi 600 butir. Penggunaan statistik ini mensyaratkan alat ukur yang dipakai adalah alat ukur yang sudah terstandar yang telah divalidasi melalui banyak penelitian.
Ilustrasi menyusun norma berdasar hipotetik:
Skala komitmen organisasi terdiri dari 15 aitem dengan skor butir dari 0 sampai dengan 4. Bagaimana batas skor jika dibuat menjadi 3 kategori dan 5 kategori? Skor terkecil 15 X 0 = 0 Skor terbesar 15 X 4 = 60 Rentangan 0-60 Mean (μ) (60+0)/2 = 30 Deviasi standar (σ) (60/6) = 10 Kategori X < (μ- σ) rendah (μ- σ) ≤ X < (μ+σ) sedang (μ+σ) ≤ X tinggi
56 | M . S . H i d a y a t u l l a h & M . A b d a n S h a d i q i PENGEMBANGAN ALAT UKUR ATRIBUT KOGNITIF
Suryabarata (2005) mejelaskan bahwa pengembangan alat ukur psikologis menyangkut serangkaian langkah demi langkah, yang sedikit banyak sudah baku, dan harus dilakukan secara berturut-turut agar menghasilkan alat ukur psikologis yang dikehendaki dengan mutu yang memadai. Langkah-langkah yang harus ditempuh tersebut hendaklah menyeluruh, rinci, dan spesifik menunjukkan keseluruhan kualitas dan ciri-ciri yang harus dimiliki oleh alat ukur yang akan dikembangkan. Uraian tersebut biasa disebut spesifikasi tes atau