• Tidak ada hasil yang ditemukan

B. Validitas

2. Sumber Bukti Validitas

Messick mengatakan bahwa validitas adalah argumen evaluasi (Osterlind, 2010). Untuk berargumen, evaluasi harus disertai bukti yang berasal dari berbagai sumber. Menurut teks Standards, sumber bukti dapat diperoleh dari lima cara, yaitu validitas berdasarkan isi tes, validitas berdasarkan proses respon, validitas berdasarkan struktur internal, validitas berdasarkan hubungan dengan variabel lain, dan validitas berdasarkan pertimbangan eksternal (Osterlind, 2010).

a. Validitas berdasarkan Isi Tes

Mengevaluasi bukti untuk menyimpulkan hasil tes yang valid hampir selalu melibatkan informasi tentang isi dari pengukuran, terutama domain konten atau konstrak. Berdasarkan teks Standards, pembuat tes harus terlebih dahulu mengembangkan deskripsi dari konstrak atau domain yang diinginkan. Deskripsi berdasarkan isi sangat membantu dalam pertimbangan awal untuk isi tes (Osterlind, 2010).

Sesuai dengan penjelasan teks Standards dan Osterlind (2010), validitas berdasarkan isi tes atau dalam beberapa literatur disebut validitas isi (content validity) adalah atribut untuk mengukur alat ukur itu sendiri dan sebaik apa alat ukur tersebut dikonstruk (Coaley, 2010). Azwar (2005; 2017a) juga mengatakan bahwa validitas isi menunjukkan sejauh mana aitem-aitem dalam tes mencakup keseluruhan kawasan isi yang hendak diukur oleh tes itu (aspek representasi) tetapi isinya juga harus tetap relevan dan tidak keluar dari batasan tujuan pengukuran (aspek relevansi). Sehingga dalam mengukur validitas isi, aspek representasi dan aspek relevansi harus diperhatikan.

Menurut Crocker dan Algina (2008), untuk mendapatkan bukti validitas berdasarkan isi tes dapat dilakukan dengan tahap-tahap sebagai berikut.

1) Tentukan domain pengukuran

2) Memilih yang ahli di bidang tersebut

3) Membuat rancangan untuk menyesuaikan aitem dengan domain 4) Mengumpulkan dan menyimpulkan data dari proses penyesuaian

Azwar (2005) mengatakan bahwa pengujian validitas isi menggunakan analisis rasional dan tidak menggunakan analisis statistika. Sehingga untuk mengembangkan isi tes yang baik dapat menggunakan penilaian dari ahli (expert judgement) (Coaley, 2010). Meminta para ahli untuk menilai aitem tes dapat sangat membantu dalam mengevaluasi validitas (Osterlind, 2010). Oleh karena itu, pengujian validitas isi juga harus dilakukan dengan seksama pada waktu pelaksanaan review oleh ahli. Namun sebelum itu, aitem-aitem dalam tes harus dipastikan sudah ditulis sesuai dengan blue-print, yaitu telah sesuai dengan batasan domain ukur yang sudah ditetapkan semula dan memeriksa apakah masing-masing aitem sudah sesuai dengan indikator perilaku yang hendak diungkapnya (Azwar, 2005).

Terdapat beberapa hal yang perlu diperhatikan dalam memilih ahli. Peneliti harus memastikan bahwa ahli memiliki definisi yang sama dengan peneliti mengenai variabel alat ukur yang akan dikonstruk. Tidak hanya itu, karakteristik aitem juga harus dijelaskan kepada ahli (Crocker & Algina, 2008). Objektivitas penilaian individual dapat ditingkatkan dengan memperbanyak penilai (Azwar, 2017a). Tetapi, dengan meningkatnya jumlah penilai, maka kemungkinan terjadinya ketidak sesuaian pendapat semakin besar. Oleh karena itu, hasil penilaian perlu dikuantifikasi. Kuantifikasi dapat dinyatakan dalam bentuk indeks validitas, yaitu dengan rasio validitas isi Lawshe’s CVR dan koefisien validitas isi Aiken’s V (Azwar, 2005; 2017a).

Content Validity Ratio (CVR) yang dirumuskan oleh Lawshe dapat digunakan untuk mengukur validitas isi aitem-aitem berdasarkan data empirik.

Pengukuran dilakukan dengan meminta sekelompok ahli untuk menilai apakah aitem dalam skala bersifat esensial atau tidak. Aitem dinilai esensial jika aitem tersebut dapat merepresentasikan tujuan pengukuran dengan baik. Penilaian esensi dan relevansi dilakukan dengan lima tingkatan skala, yaitu dari 1 (sama sekali tidak esensial dan tidak relevan) hingga 5 (sangat esensial dan sangat relevan). Rentang CVR adalah -1.00 sampai +1.00. CVR = 0.00 berarti 50% dari is menyatakan aitem adalah esensial sehingga aitem tersebut dinyatakan valid (Azwar, 2017).

Prosedur menentukan koefisien validitas isi Aiken’s V dimulai dari penilaian (judgement) suatu aitem oleh ahli (judge) sebanyak n orang atau penilaian aitem sebanyak m butir oleh satu ahli (Aiken, 1985). Penilaian dapat dibuat dengan skala yang nyaman dipakai dengan bilangan bulat berurut, misalnya 1, 2, 3, 4, 5 atau 0, 1, 2, 3 ataupun -3, -2, -1, 0, 1, 2, 3. Azwar (2017b) menggunakan angka antara 1 sampai 5 untuk mengukur koefisien validitas isi Aiken’s V. angka 1 menggambarkan sangat tidak mewakili atau sangat tidak relevan sementara angka 5 yaitu sangat mewakili atau sangat relevan. Rentang untuk koefisien V adalah 0 hingga 1 dengan nilai tinggi menunjukkan aitem tersebut memiliki validitas isi yang tinggi (untuk satu aitem yang dinilai oleh n ahli) atau sekelompok aitem memiliki validitas isi yang tinggi pada penilaian dari satu ahli (untuk m aitem yang dinilai oleh satu ahli) (Aiken, 1985).

Retnawati (2016) mengungkapkan bahwa terdapat tiga kategori hasil uji validitas isi dengan koefisien V, yaitu:

Tabel 1. Implikasi Koefisien V Koefisien V Implikasi

< 0,4 0,4 – 0,8

> 0,8

Validitas rendah Validitas sedang Validitas tinggi b. Validitas berdasarkan Proses Respon

Respon subyek diperlukan untuk menguji proses mental atau kognitif subyek ketika mengerjakan tes. Validitas berdasarkan proses respon menurut teks Standards adalah bukti mengenai kesesuaian antara konstrak dengan respon yang disampaikan subyek (examinee) (Padilla & Benitez, 2014). Teks Standards mengatakan bahwa jika tes ini ditujukan untuk menguji mathematical reasoning, penting untuk menentukan apakah subyek memang melakukan reasoning ketika mengerjakannya dan bukan mengikuti algoritma standar. Tes yang membutuhkan reasoning rawan karena bisa saja subyek menggunakan informasi dari ingatan daripada reasoning dalam mengerjakan tes (Osterlind, 2010).

Ada beberapa metode untuk mengukur validitas berdasarkan proses respon.

Metode untuk mengukurnya menggunakan variabel laten (variabel yang tidak bisa diukur secara langsung) dan proses sebab akibat dari konstrak, yaitu analisis variabel laten, structural equation modeling (SEM), hierarchical linear modeling (HLM), conjectural analysis, path analysis, dan bahkan meta-analyses. Taksonomi yang mengelompokkan proses kognitif juga berguna, misalnya Taxonomy of Educational Objectives milik Bloom ataupun A Comprehensive Framework for Instructional Objectives milik Hannah dan Michaelis. Tetapi kedua taksonomi ini perlu diperhatikan karena mereka bisa saja menjadi rute yang tidak terlalu tepat untuk menunjukkan proses respon subjek (Osterlind, 2010).

c. Validitas berdasarkan Struktur Internal

Validitas berdasarkan struktur internal dalam beberapa literatur disebut dengan validitas konstruk. Menurut Murphy dan Davidshofer (2005), tujuan dari validitas berdasarkan struktur internal adalah menentukan apakah tes memberikan pengukuran yang baik atas suatu konstrak. Osterlind (2010) juga mengatakan bahwa fokus utama dari validitas ini adalah membuat kesimpulan yang benar dan reliabel mengenai konstrak yang diukur.

Menurut Osterlind (2010), diperlukan pengujian teori yang mendasari alat ukur untuk mulai menguji struktur internal suatu alat ukur. Semakin jelas suatu teori maka semakin besar kemungkinan kesesuaian aitem dengan teori. Ada beberapa cara untuk menguji struktur internal suatu alat ukur secara empris dengan metode psikometrik, beberapa di antaranya adalah common factor model, multitrait-multimatrix method (MMTM), dan Item Response Theory (IRT) (Osterlind, 2010).

Common factor model adalah tes yang terdiri dari aitem-aitem yang memiliki kesamaan (commonality) dan pengaruh yang unik. Namun, kesamaan tersebut tidak tersebar secara merata, sehingga common factor yang ada tidak disebar secara merata. Konsekuensi dari model ini adalah skor dari peserta tes memiliki fungsi yang tidak hanya untuk mengetahui pengetahuan individu tentang konstrak tersebut tetapi juga sejauh apa konstrak yang diukur aitem. Model ini biasanya diukur dengan Factor Analysis (FA) atau Principal Components Analysis (PCA) (Osterlind, 2010).

Selain common factor model, juga ada MMTM yang dapat digunakan jika terdapat dua trait atau lebih yang diukur oleh dua macam metode atau lebih. Dasar

pemikiran validasi ini adalah adanya validitas yang baik diperlihatkan oleh korelasi yang tinggi antara dua pengukuran terhadap trait yang sama oleh dua metode yang berbeda, atau sebaliknya, korelasi yang rendah antara dua pengukuran terhadap trait yang berbeda walaupun menggunakan metode yang serupa (Azwar, 2017b).

Istilah yang terdapat dalam MMTM adalah reliabilitas tes (r), validitas konvergen (cv), dan validitas divergen (dv1 dan dv2). Reliabilitas tes (r) adalah korelasi antara metode yang sama dan trait yang sama. Korelasi antara dua metode yang berbeda untuk menguji konstrak (trait) yang sama disebut validitas konvergen (cv). Lalu, korelasi antara metode yang berbeda yang mengukur dua konstrak yang berbeda disebut validitas divergen (dv1 dan dv2).

Interpretasi data dari MMTM tidak sulit, tetapi harus memerhatikan beberapa hal, yaitu pertama, karakteristik spesifik untuk korelasi diperlukan agar bukti bisa dianggap bermakna untuk kesimpulan yang berhubungan dengan konstrak. Kedua, indikator reliabilitas harus lumayan tinggi, yaitu 0,6 ke atas. Nilai cv minimal harus berbeda secara signifikan dari random (cv = 0). Semakin tinggi nilai r dan cv, maka semakin sah bukti validitas konvergen. Setidaknya, nilai r dan cv harus lebih besar dari nilai dv2 karena kegagalan dari kondisi ini menunjukkan kurangnya kekuatan untuk validitas konvergen. Ketiga, korelasi koefisien cv harus lebih besar dari koefisien dv1 dan dv2. Keempat, harus ada pola yang mirip antara koefisien dv1 dan dv2 di setiap segitiga (Osterlind, 2010).

Menguji validitas berdasarkan struktur internal juga dapat dilakukan dengan IRT (Item Response Theory). IRT adalah teori psikologis tentang pengukuran mental yang menentukan informasi tentang latent traits (karakteristik yang tidak

terlihat) dan karakteristik stimulus yang digunakan untuk menggambarkannya.

Metode IRT menggunakan dua aspek dasar dari penilaian kognitif, yaitu estimasi karakteristik stimulus pengukuran (misalnya tingkat kesulitan atau daya diskriminasi) dan kesimpulan dari kemampuan atau keahlian laten peserta (Osterlind, 2010). Hal ini sejalan dengan yang dikatakan Sumintono dan Widhiarso (2014) bahwa IRT merupakan kerangka umum dari fungsi matematika yang khusus menjelaskan interaksi antara orang (person) dan butir soal/item (test items).

IRT dapat menjelaskan tidak hanya nilai hubungan dan korelasi, tetapi juga memberikan gambaran yang lebih jelas tentang apa yang terjadi antara orang dan aksi yang dilakukan melalui kalibrasi instrumen. Kalibrasi adalah penyetaraan metrik ukur. Dengan IRT, data hasil pengukuran yang didapat melalui penerapan sistem pengukuran standar yang digunakan dalam ilmu eksakta juga dapat dilakukan dalam penelitian ilmu sosial (Sumintono & Widhiarso, 2014).

Salah satu model IRT yang terkenal adalah pemodelan Rasch. Menurut Sumintono dan Widhiarso (2014), terdapat beberapa kelebihan yang dimiliki oleh Rasch Model. Pemodelan Rasch dapat mengakomodasi pendekatan probabilitas dalam memandang atribut sebuah objek ukur sehingga pemodelan Rasch tidak bersifat deterministik dan mampu mengidentifikasi objek ukur secara lebih cermat.

Selain itu, pemodelan Rasch juga mengatasi masalah perbedaan antarbutir.

Pemodelan Rasch juga mengatasi masalah keintervalan data dengan cara mengakomodasi transformasi logit, atau menerapkan logaritma pada fungsi rasio odd. Pemodelan Rasch juga cukup tahan (robust) terhadap data hilang, pemodelan ini sangat fleksibel terhadap berbagai struktur data. Selain itu, pemodelan Rasch

telah memenuhi pengukuran yang objektif, yaitu terbebas dari pengaruh jenis subjek, karakteristik penilai (rater), dan karakteristik alat ukur. Teknik estimasi dan kalibrasi yang dipakai dalam pemodelan telah mengeliminasi pengaruh dari ketiga faktor tersebut (Sumintono & Widhiarso, 2014).

Analisis validitas berdasarkan struktur internal menggunakan model Rasch dapat diukur dengan ketepatan pengukuran, yaitu apakah aitem dimengerti dengan baik oleh responden. Hal ini dapat diukur dengan outfit MNSQ (Mean-Square), outfit ZSTD (Z-Standard), dan PTM (Point Measure Correlation). Outfit adalah outlier-sensitive fit, yaitu mengukur kesensitifan pola respons terhadap aitem dengan tingkat kesulitan tertentu pada responden (person), atau sebaliknya. Outfit dapat mendeteksi respons yang salah dari person, misalnya tidak bisa mengerjakan soal yang mudah padahal mempunyai kemampuan tinggi (careless) atau mampu mengerjakan soal yang sulit dengan kemampuan rendah (lucky guess) (Sumintono

& Widhiarso, 2014).

Mean-square fit statistic memperlihatkan keacakan, yaitu jumlah distorsi dalam sistem pengukuran. Nilai yang diharapkan adalah 0,5 – 1,5. Jika nilai yang didapat kurang dari nilai tersebut berarti aitem terlalu mudah ditebak (data overfit the model) sementara nilai yang lebih besar menunjukkan aitem tidak mudah diprediksi (data underfit the model) (Sumintono & Widhiarso, 2014).

Tabel 2. Implikasi Nilai Mean-square

Nilai Mean-square Implikasi

> 2,0 Data tidak diharapkan jika sesuai dengan model (secara sempurna). Namun, dengan sampel yang besar,

ketidaksesuaiannya mungkin lebih kecil.

1,5 – 2,0 Data tampak tidak dapat diprediksi 0,5 – 1,5 Data mempunyai perkiraan yang logis

< 0,5 Data terlalu mudah diprediksi

Standardized fit statistic adalah uji-t untuk hipotesis “apakah data sesuai (fit) dengan model?” Hasil dari uji-t berupa nilai z, yaitu penyimpangan unit yang menjelaskan signifikansi kesesuaian data dengan model. Rentang nilai z yang baik adalah -2,0 < x < +2,0 (Sumintono & Widhiarso, 2014).

Tabel 3. Implikasi Nilai Outfit ZSTD

Nilai ZSTD Implikasi

≥ 3,0 Menurunkan kualitas sistem pengukuran.

2,0 – 2,9 Kurang bagus untuk pembuatan instumen, tetapi tidak menurunkan kualitas.

-1,9 – 1,9 Kondisi yang baik untuk pengukuran.

≤ -2,0 Kurang produktif untuk pengukuran, namun tidak menurunkan kualitas, kemungkinan bisa menyebabkan kesalahan dengan reliabilitas yang tinggi.

Nilai Point Measure Correlation yang digunakan adalah 0,4 < Pt Measure Corr

< 0,85 (Sumintono & Widhiarso, 2014).

d. Validitas berdasarkan Hubungan dengan Variabel Lain

Validitas berdasarkan hubungan dengan variabel lain dalam beberapa literatur sering disebut sebagai validitas berdasarkan kriteria. Bukti kriteria sering dikenal dengan bukti prediktif (predictive-related evidence) dan bukti konkuren (concurrent-related evidence). Keduanya sama-sama menandakan hubugnan antara tes dan kriteria eksternal. Bedanya adalah bukti prediktif adalah indikator yang terbentuk dari perbandigan antara tes dan kriteria administrasi posttest (Osterlind, 2010). Sebagai tambahan, Azwar (2017a) menyatakan bahwa bukti prediktif dapat berfungsi sebagai prediktor bagi performansi individu di waktu yang akan datang.

Sedangkan bukti konkuren diperoleh dengan membandingkan suatu tes dengan tes yang relevan yang bertujuan ukur yang sama (Azwar, 2017a).

Masalah yang muncul dari bukti validitas berdasarkan hubungannya dengan variabel lain adalah masalah kriteria. Masalahnya adalah reliabilitas kriteria

tergantung pada korelasi dengan kriteria eksternal, yang juga mempunyai kekurangan. Secara logis, kestabilan tidak akan tercapai. Namun, para ahli menemukan solusinya, yaitu jika koefisien korelasi yang diperoleh 0,6 atau 0,7 maka interpretasi hasil tes dapat digunakan.

e. Validitas berdasarkan Pertimbangan Eksternal 1) Face validity sebagai sumber bukti

Face validity adalah ketika peserta yang baru pertama kali melihat alat tes tersebut tidak boleh merasa dihadapkan pada dokumen yang asing, yang sering merupakan hasil persiapan yang tidak profesional. Validitas ini tidak dapat diuji dengan metode statistika. Namun bukan berarti tampilan alat tes tidak penting.

Menyediakan alat tes yang terlihat dan terasa profesional adalah tanggung jawab yang berhubungan dengan validitas (Osterlind, 2010).

2) Generalisasi validitas

Teks Standards mengartikan generalisasi validitas sebagai sebuah sumber bukti yang menekankan masalah terkait derajat bukti validitas berdasarkan hubungan tes-kriteria dapat digeneralisasi dengan situasi baru tanpa validasi lebih lanjut mengenai situasi baru tersebut (Osterlind, 2010). Dengan kata lain, pada keadaan tertentu, evaluasi atau penelitian yang pernah dilakukan dapat digunakan pada situasi baru.

Dokumen terkait