• Tidak ada hasil yang ditemukan

LANDASAN TEORI

C. Kualitas Psikometrik Tes

C. Kualitas Psikometrik Tes

Tes psikologi sebagai alat pembanding atau pengukur, agar dapat menjalankan fungsinya secara baik haruslah memiliki kualitas tertentu dengan syarat-syarat tes yang baik sebagai berikut: valid, reliabel, dan memiliki statistik item yang baik (Supratiknya, 1998).

1. Reliabilitas

a. Pengertian Reliabilitas

Reliabilitas memiliki beberapa istilah seperti keterpercayaan, keterandalan, keajegan, kestabilan, konsistensi dan masih banyak istilah yang lain (Azwar, 1997 dan Supratiknya, 1998). Suatu tes disebut reliabel jika skor yang ada memiliki korelasi yang tinggi dengan situasi yang sebenarnya dan berhubungan dengan ketepatan pengukuran tanpa menghiraukan apa yang diukur (Allen & Yen, 1979 dan Nunnally, 1978). Dalam menentukan reliabilias digambarkan bahwa tes mengukur karakteristik yang relatif stabil. Sedangkan unreliabilitas merupakan hasil dari kesalahan pengukuran yang terjadi karena keadaan internal yang sementara, seperti motivasi yang rendah, keengganan dalam mengerjakan atau kondisi eksternal seperti gangguan dari lingkungan tes yang tidak nyaman (Lewis & Gary-Groth, 2008).

b. Beberapa Pendekatan Estimasi Reliabilitas

Secara lebih terperinci, metode estimasi reliabilitas terdiri atas 3 bentuk, yaitu (Lewis & Gary-Groth, 2008., Supratiknya, 1998., Friedenberg, 1995., Azwar, 1997 dan Allen & Yen, 1979):

1) Koefisien Test Retest

Dihitung untuk melihat kekonsistensian tes tertentu dari waktu ke waktu. Untuk melihat konsistensi suatu tes menggunakan metode ini harus dilakukan pengetesan sebanyak dua kali. Panjang pendeknya waktu yang ditentukan antara tes yang pertama dengan yang kedua tergantung dari keyakinan tester tentang kestabilan sifat yang ingin diukur. Koefisien reliabilitasnya adalah korelasi dari hasil pengukuran pertama dengan yang kedua. Tetapi, metode ini memiliki beberapa kelemahan yaitu kurang praktis dan memungkinkan carry over effects.

2) Koefisien Bentuk Paralel

Koefisien paralel adalah tes yang terdiri dari item yang tidak sama tetapi harus sama secara kualitas dan kuantitasnya. Metode ini menggunakan dua bentuk dari tes yang paralel yang diberikan pada subjek yang sama. Kedua bentuk tes tersebut harus diberikan dalam waktu yang dekat untuk menghindari kelelahan. Koefisien korelasi kedua bentuk tes tersebut kemudian dihitung. Estimasi reliabilitas ini ingin menunjukkan sejauh mana kedua bentuk tes yang berlainan mengukur kemampuan atau sifat yang sama. Tetapi, metode ini memiliki beberapa kelemahan yaitu sulit mencari alat ukur yang paralel dan tidak menghilangkan kemungkinan carry over effects

20   

3) Koefisien Konsistensi Internal

Tes ini terdiri dari item yang seluruhnya mengukur kepribadian atau sifat yang sama dan diambil dari tempat atau wilayah yang sama. Koefisien konsistensi internal bertujuan untuk melihat konsistensi antar item atau antar bagian dalam suatu tes. Setelah skor diperoleh dari satu kelompok, tes tersebut dibagi menjadi beberapa bagian atau belahan. Bentuk, sifat alat ukur dan banyaknya belahan menentukan teknik perhitungan koefisien reliabilitasnya. Metode ini mencakup beberapa metode seperti Metode Split Half Spearman, Kuder Richardson, dan Koefisien Alfa Cronbach.

a) Spilt Half Spearman

Setelah dilakukan pengetesan, terdapat beberapa cara untuk membagi tes tersebut yaitu membagi berdasarkan item dengan nomor ganjil dan item dengan nomor genap, membagi secara acak, atau mengurutkan berdasarkan tingkat kesukaran yang dilihat dari respon subjek, kemudian membagi dalam peringkat dengan nomor ganjil dan genap. Dalam melakukan pembelahan digunakan asumsi bahwa dua belahan tersebut memiliki mean dan varian yang sama. Tes dapat diestimasi dengan menggunakan rumus Spearman Brown.

b) Kuder-Richardson

Salah satu metode yang cukup dikenal selain koefisien alpha adalah Kuder Richardson. Formula ini berasal dari usaha Kuder dan Richardson ketika mencari solusi dalam mengatasi masalah yang diakibatkan ketidakjelasan stategi split half yang akan menghasilkan estimasi reliabilitas yang terbaik. Maka diambillah rata-rata koefisien realibilitas yang diperoleh dari semua model spilt half sebagai estimasi reliabilitas secara keseluruhan. Kuder dan Richardson yang menciptakan prosedur jalan pintas untuk mengambil rata-rata dari model split half.

c) Koefisien Alpha Cronbach

Keuntungan metode ini hanya perlu melakukan satu kali pengetesan. Apabila kedua belahan tidak paralel, maka koefisien reliabilitas keseluruhan tesnya di estimasi menggunakan koefisien α. Koefisien alpha digunakan untuk mengestimasi reliabilitas tes yang terdiri dari item dengan bobot berbeda dan diberikan pada respon yang berbeda. Koefisien α akan memberikan underestimasi kepada koefisien reliabilitas seluruh tes apabila kedua belahannya tidak “essentially τ–equivalent”.

22   

2. Validitas

a. Pengertian Validitas

Validitas didefinisikan sebagai seberapa jauh tes dapat mengukur apa yang ingin diukur (Lewis & Gary-Groth, 2008). Validitas berasal dari bahasa Inggris dari kata validity yang berarti keabsahan atau kebenaran. Dalam konteks alat ukur atau instrumen asesmen, validitas berarti sejauh mana kecermatan atau ketepatan alat ukur dalam melakukan fungsi ukurnya. Suatu tes dikatakan memiliki validitas yang rendah jika tes menghasilkan data yang tidak relevan dengan tujuan pengukurannya (Azwar, 1997).

b. Beberapa Pendekatan Estimasi Validitas

Secara lebih terperinci, metode estimasi validitas terdiri atas 3 bentuk, yaitu (Supratiknya, 1998., Anastasi, 2007., Azwar, 1997., Lewis & Gary-Groth, 2008., dan Allen & Yen, 1979):

1) Validitas Isi (Content Validity)

Sebuah tes dikatakan memiliki validitas isi jika butir-butir tes bersifat representatif atau menimbulkan respon yang mewakili seluruh domain dari ketrampilan, pemahaman, dan perilaku yang telah dirancang untuk diukur dalam suatu tes. Pengujian validitas isi tidak melalui prosedur pengujian secara statistik, melainkan melalui analisis secara rasional. Validitas isi muncul dalam bentuk personal judgement. Validitas isi dapat digunakan jika domain tes terdiri dari

kemampuan atau pengetahuan. Validitas isi terbagi menjadi dua kategori yaitu:

a) Validitas Muka (Face Validity)

Validitas muka merupakan validitas yang paling rendah signifikansinya. Hal ini terjadi karena suatu tes hanya dilihat berdasarkan format penampilan tes tersebut. Validitas muka dilakukan dengan meminta seseorang untuk memeriksa tes dan menyimpulkan apakah tes tersebut mengukur sifat yang ingin diukur. Sehingga lebih bersifat common sense. Hal ini dapat terlihat dari apakah tes tersebut valid menurut testee, tenaga administratif yang menggunakan tes tersebut, dan bagi orang lain yang tidak terlatih secara teknis.

b) Validitas logis (Logical Validity)

Validitas logis bermanfaat untuk menyusun tes jenis achievement. Validitas logis digunakan untuk melihat sejauh mana suatu tes merepresentasikan ciri-ciri atribut yang hendak diukur. Agar mendapatkan validitas logis yang tinggi suatu tes harus dirancang sedemikian rupa sehingga benar-benar berisi item yang relevan (Azwar, 2003).

2) Validitas Konstruk (Construct Validity)

Validitas konstruk merupakan tipe dari validitas yang dapat menunjukkan sejauhmana tes dapat mengungkap suatu trait atau

24   

konstruk teoritis yang hendak diukur (Allen & Yen, 1979). Ada dua bentuk validitas konstruk yang penting, yaitu:

a) Validitas Multitrait-Multimethod

Validitas ini digunakan jika dalam suatu tes terdapat dua trait atau lebih yang diukur oleh dua metode atau lebih. Validitas ini terbagi menjadi dua jenis, yaitu validitas konvergen dan validitas diskriminan. Validitas konvergen adalah suatu tes memiliki korelasi tinggi antara tes-tes yang mengukur sifat atau trait yang sama dengan metode yang berbeda, dengan kata lain tes-tes yang berbeda bertemu pada sifat yang sama. Sedangkan validitas diskriminan adalah suatu tes memiliki korelasi rendah antara tes-tes yang mengukur sifat atau trait yang berbeda dengan metode yang sama, dengan kata lain tes-tes yang berbeda memang membedakan sifat-sifat yang tidak sama (Allen & Yen, 1979).

b) Validitas Faktorial

Validitas faktorial merupakan bentuk dari validitas konstruk yang diteliti menggunakan analisis faktor. Analisis faktor digunakan untuk sarana mengidentifikasi sifat-sifat psikologis (Anastasi, 2007). Validitas faktorial diteliti dengan melakukan analisis faktor terhadap suatu tes dan sekaligus pada serangkaian tes yang diketahui mengukur sejumlah faktor atau rangkaian tes yang disebut sebagai marker test (Azwar, 1997).

3) Validitas Kriteria (Criterion Validity)

Validitas kriteria adalah suatu prosedur yang berupa skor tes sekelompok orang yang kemudian dibandingkan dengan peringkat, klasifikasi, dll. Kriteria adalah variabel perilaku tertentu yang akan diprediksi dengan menggunakan skor-skor tes tersebut. Prosedur validitas kriteria terdiri dari dua macam, yaitu validitas prediktif dan validitas konkuren (Azwar, 1997).

Validitas konkuren digunakan jika skor tes dan skor kriteria diperoleh dalam waktu yang sama. Validitas konkuren dilaksanakan pada orang-orang dengan kelompok tersentu, seperti kelompok diagnostik atau level sosial-ekonomi. Sedangkan validitas prediktif digunakan untuk memprediksi tingkah laku di masa yang akan datang. Validitas prediktif penting digunkan pada tes bakat atau tes kecerdasan, karena skor pada jenis instrumen ini sering berkorelasi dengan peringkat, kelas, dan lain-lain (Lewis & Gary-Groth, 2008).

3. Kualitas Item

Tes yang baik adalah tes yang memiliki kualitas item yang baik. Item-item tersebut telah melalui proses penyusunan yang sesuai dengan petunjuk penulisan item yang semestinya (Supratiknya, 1998).

26   

a. Taraf Kesukaran

Taraf kesukaran item ditunjukkan oleh suatu indeks kesukaran item yang disimbolkan dengan huruf p. Dalam kebanyakan tujuan pengetesan, tingkat kesulitan soal dihubungkan dengan persentase orang-orang yang menjawab dengan benar. Semakin mudah soal yang dibuat, semakin besar persentasenya. Mengatur item-item soal merupakan hal yang wajar dalam suatu pengetesan, hal ini membuat peserta dapat mengerjakan soal yang lebih mudah terdahulu sehingga tidak membuang waktu yang banyak dalam mengerjakan soal yang menurut mereka sulit dan dapat meningkatkan kepercayaan diri peserta dalam mengerjakan tes yang diberikan. Mengukur tingkat kesulitan item ini bertujuan supaya dalam suatu tes terdiri dari butir soal dengan tingkat kesulitan yang sesuai (Anastasi, 1997; Supratiknya, 1998).

Semakin besar nilai p maka item tersebut semakin mudah, tetapi jika nilai p semakin kecil maka item tersebut semakin sulit. Apabila suatu item sangat sulit sehingga tidak ada seorang pun yang menjawab dengan benar, maka nilai p adalah 0. Sedangkan, suatu item sangat mudah dijawab sehingga semua orang dapat menjawab dengan benar, maka nilai p adalah 1. Jika suatu item memiliki nilai 0 atau 1, semakin kurang pentinglah informasi tentang peserta tes yang disumbangkan oleh tes tersebut (Anastasi, 1997; Supratiknya, 1998). Indeks kesukaran item yang ideal berada dikisaran 0,3 sampai dengan 0,7 (Allen & Yen, 1979).

b. Daya Diskriminasi

Daya diskriminasi adalah kemampuan suatu item tes dapat mendiskriminasikan antara testee yang berkemampuan tinggi dengan testee yang berkemampuan rendah dan dilambangkan dengan huruf d. Suatu item dikatakan memiliki daya diskriminasi yang tinggi apabila seluruh atau sebagian besar kelompok tinggi menjawab dengan benar dan tidak dapat dijawab dengan benar oleh kelompok rendah. Indeks diskriminasi yang ideal adalah yang mendekati angka 1. Semakin mendekati angka 1 berarti item tersebut semakin mampu membedakan antara kelompok orang yang menguasai bahan yang diujikan dengan kelompok orang yang tidak menguasai bahan yang diujikan. Berikut ini terdapat tabel yang menunjukkan kriteria evaluasi indeks diskriminasi (Supratiknya, 1998).

Tabel 1.

Kriteria Evaluasi Indeks Diskriminasi

Indeks Diskriminasi Evaluasi

0,40 atau lebih Bagus sekali

0,30 – 0,39 Lumayan baik tetapi masih perlu ditingkatkan

0,20 – 0,29 Belum memuaskan, perlu perbaikan Kurang dari 0,20 Buruk dan harus dibuang

Pengujian daya diskriminasi item juga dapat dilakukan dengan koefisien korelasi item total yang dikenal dengan parameter daya beda item (Friedenberg, 1995). Semakin tinggi korelasi positif antara skor item dengan skor tes secara keseluruhan berarti semakin tinggi daya bedanya. Sedangkan, koefisien korelasi yang rendah mendekati nol berarti fungsi item tersebut tidak cocok dengan fungsi ukur tes dan daya

28   

bedanya tidak baik. Besarnya koefisien korelasi item total dimulai dari 0,00 sampai dengan 1,00 dengan tanda positif atau negatif. Koefisien korelasi yang mendekati angka 1,00 menunjukkan bahwa daya diskriminasi item semakin baik (Azwar, 1999).

Kriteria pemilihan item melalui korelasi item total biasanya menggunakan batasan rix ≥ 0,30. Item yang memiliki nilai rix kurang dari 0,30 mempunyai daya diskriminasi rendah. Batasan ini merupakan suatu konvensi yang berarti penyusun tes diperbolehkan menentukan sendiri batasan daya diskriminasi itemnya dengan mempertimbangkan isi dan tujuan skala yang sedang disusun (Azwar, 1999).

Dokumen terkait