Kualitas Alat Penilaian

(1)

Kualitas Alat Penilaian

Dr. Titik Harsiati, M.Pd.

ari Modul 1, Anda ketahui bahwa untuk mengambil keputusan dalam proses evaluasi, diperlukan informasi yang akurat dari kegiatan pengukuran. Seorang perancang evaluasi perlu memahami karakteristik alat evaluasi yang baik. Jika alat evaluasi tidak baik, hal itu akan menyebabkan proses dan hasil evaluasi tidak bermanfaat. Setelah memahami hakikat evaluasi, fungsi, dan karakteristik evaluasi jenis alat evaluasi dalam pembelajaran bahasa Indonesia, calon guru perlu mempelajari karakteristik alat evaluasi yang baik.

Setelah mempelajari modul ini, secara umum Anda diharapkan dapat merencanakan dan memahami syarat-syarat alat evaluasi yang baik. Secara khusus, setelah mempelajari modul ini, diharapkan Anda mampu menjelaskan:

1. konsep validitas;

2. implementasi konsep validitas pada penilaian hasil pembelajaran bahasa Indonesia;

3. konsep reliabilitas;

4. implementasi konsep reliabilitas pada penilaian hasil pembelajaran bahasa Indonesia;

5. konsep dan langkah-langkah pengujian daya beda dan tingkat kesulitan; 6. implementasi konsep kepraktisan pada penilaian hasil pembelajaran

bahasa Indonesia.

Modul ini penting dipelajari sebagai bekal untuk merencanakan penyusunan alat evaluasi yang memiliki kualitas tinggi. Kualitas alat ukur yang akan dibahas pada modul ini mencakup kualitas dari segi validitas konstruknya, reliabilitasnya, daya beda dan tingkat kesulitannya, serta kepraktisannya. Untuk mencapai tujuan yang ditetapkan, materi pada modul

D

(2)

ini mencakup (1) konsep validitas, (2) contoh implementasi konsep validitas pada penilaian hasil pembelajaran bahasa Indonesia, (3) konsep reliabilitas, (4) contoh implementasi konsep reliabilitas pada penilaian hasil pembelajaran bahasa Indonesia, (5) konsep dan langkah-langkah pengujian daya beda dan tingkat kesulitan, serta (6) kepraktisan dan contoh pelaksanaannya pada penilaian mata pelajaran bahasa Indonesia.

Anda akan mempelajari modul ini dengan susunan berikut.

Kegiatan Belajar 1: menelaah konsep validitas dan analisis contoh implementasi konsep validitas pada penilaian hasil pembelajaran bahasa Indonesia.

Kegiatan Belajar 2: menelaah konsep reliabilitas dan analisis contoh implementasi konsep reliabilitas pada penilaian hasil pembelajaran bahasa Indonesia.

Kegiatan Belajar 3: menelaah konsep dan langkah-langkah pengujian daya beda dan tingkat kesulitan serta analisis contoh implementasi konsep kepraktisan pada penilaian hasil pembelajaran bahasa Indonesia.

(3)

Kegiatan B elajar 1

Validitas pada Penilaian Hasil

Pembelajaran Bahasa Indonesia

A. KONSEP VALIDITAS

Sebelum mengkaji validitas dan reliabilitas secara konseptual, cermatilah kasus dalam kehidupan sehari-hari yang berkaitan dengan kedua konsep tersebut.

Andi adalah seorang mahasiswa yang akan melakukan penimbangan kandungan humus pada tanah di daerah tertentu. Prosedurnya seperti pada gambar dia harus (1) menimbang panci pijar untuk mengetahui berat panci pijar, (2) menimbang sekitar 100 gram tanah yang mengandung humus untuk mengetahui berat tanah sebelum dibakar, (3) membakar tanah yang telah ditimbang dengan panci pijar sampai memerah, dan (4) menimbang tanah yang setelah dalam kondisi dingin.

Alat utama yang harus disediakan Andi adalah alat pengukur berat yang sesuai. Mengapa Andi memilih alat ukur timbangan dan bukan meteran? Tentunya karena yang akan diukur adalah berat. Lalu, mengapa yang dipilih timbangan kue dan bukan timbangan duduk atau timbangan beras? Penggunaan timbangan kue karena ketelitiannya lebih tinggi untuk mengukur berat tanah yang hanya sekitar 100 gram.

Setelah Andi mendapatkan timbangan kue, sebelum dipakai, diujicobakan untuk mengetahui apakah timbangan masih berfungsi dengan baik. Uji coba Andi dilakukan dengan menimbang bandul besi seberat 200 gram menggunakan timbangan kue tersebut secara berulang-ulang. Karena setelah ditimbang berulang-ulang hasilnya sama, diputuskan untuk menggunakan timbangan tersebut.

Manakah kegiatan Andi yang berkaitan dengan konsep validitas atau ketepatan alat ukur? Tentunya, kegiatan Andi memilih timbangan kue dengan pertimbangan karena yang diukur adalah berat tanah dan beratnya hanya sekitar 100 gram. Jika Andi memilih timbangan duduk untuk menimbang berat tanah 100 gram, ketepatannya akan berkurang. Lalu, kegiatan Andi untuk menguji fungsi timbangan dengan cara menimbang secara

(4)

berulang-ulang barang yang sama berkaitan dengan konsep keajekan hasil (reliabilitas). Dengan alat ukur yang tepat dan dapat memberikan hasil yang konsisten, kesimpulan yang akan diperoleh Andi adalah kesimpulan yang tepat.

Dari kasus di atas, tentunya Anda sudah memiliki sedikit gambaran tentang konsep validitas dan reliabilitas. Bayangkan, apa yang akan terjadi seandainya timbangan yang digunakan adalah timbangan yang rusak sehingga barang yang sama ditimbang pada waktu berbeda hasilnya juga berbeda. Apa yang akan terjadi seandainya untuk mengetahui berat tanah digunakan meteran atau timbangan duduk yang besar itu?

Untuk memperdalam pemahaman Anda tentang validitas, pelajarilah uraian berikut dengan saksama.

(5)

B. APAKAH VALIDITAS ITU?

Konsep validitas berkaitan dengan sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu alat disebut memiliki validitas yang tinggi apabila alat tersebut dapat menjalankan fungsi ukurnya. Artinya, alat tersebut dapat memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut (Djaali, 2000: 49). Validitas adalah tingkat yang dapat menunjukkan pengamatan secara terus-menerus atau mengukur apa saja yang diukur (Aiken, 2004). Kesahihan tidak sekadar mengukur apa yang seharusnya diukur, melainkan juga mengandung pengertian sejauh mana informasi yang diperoleh dari pengukuran dapat diinterpretasikan sebagai tingkah laku atau karakteristik yang diukur (Atanasou, 2007).

Jadi, validitas berkenaan dengan ketepatan alat ukur terhadap konsep

yang diukur sehingga betul-betul mengukur apa yang seharusnya diukur. Sebagai contoh, Anda ingin mengukur kemampuan siswa dalam berbicara, tetapi siswa mengerjakan tugas tentang tata bahasa atau kesusastraan. Alat itu dianggap tidak memiliki validitas yang baik karena belum mengukur apa yang seharusnya diukur. Validitas tidak berlaku universal sebab bergantung pada situasi dan tujuan penelitian. Instrumen yang telah valid untuk suatu tujuan tertentu belum otomatis akan valid untuk tujuan yang lain. Validitas mencakup beberapa jenis berikut.

1. Validitas Isi

Menurut Gregory (2000), validitas isi menunjukkan sejauh mana pertanyaan, tugas, atau butir tes/instrumen mampu mewakili secara keseluruhan dan proporsional perilaku sampel. Validitas isi (content validity) digunakan pada waktu pemakai tes akan menarik kesimpulan domain butir tes berdasarkan skor tes individu ke domain butir yang lebih besar yang serupa dengan butir-butir yang terdapat dalam tesnya sendiri (Crocker dan Algina, 1986: 217). Dalam pembelajaran, validitas isi menunjukkan sejauh mana tes mengukur tingkat penguasaan terhadap isi suatu materi pembelajaran dan tujuan pembelajaran. Dengan kata lain, tes yang memiliki validitas isi yang baik adalah tes yang benar-benar mengukur penguasaan materi yang seharusnya dikuasai sesuai isi kurikulum. Karena itu, sering validitas isi juga disebut validitas kurikuler. Dalam konteks pembelajaran berdasarkan standar isi, tes yang memiliki validitas isi yang baik adalah tes

(6)

yang benar-benar mengukur penguasaan kompetensi dasar pada standar isi. Dengan demikian, dalam pembelajaran validitas isi adalah hal pertama yang harus ditegakkan dalam mengembangkan tes.

Yang harus dipertimbangkan agar sebuah tes memiliki validitas isi adalah tujuan, susunan pemilihan butir, dan aspek yang diuji oleh butir (Crocker dan Algina, 1986: 219—221). Validitas isi berkenaan dengan kesanggupan instrumen mengukur keseluruhan isi yang harus diukur. Artinya, alat ukur tersebut mampu mengungkap isi dalam kurikulum. Hal ini bisa dilakukan dengan cara menyusun tes yang bersumber dari kurikulum bidang studi yang hendak diukur. Walaupun demikian, tes hasil belajar tidak mungkin dapat mengungkap semua materi yang ada. Oleh sebab itu, harus diambil sebagian dari materi dalam bentuk sampel tes. Sebagai sampel, harus dapat mencerminkan materi yang terkandung dari seluruh materi bidang studi. Cara yang ditempuh dalam menetapkan sampel tes adalah memilih konsep-konsep yang esensial dan merepresentasikan kompetensi yang lain pada standar isi. Di sinilah pentingnya peranan kisi-kisi sebagai alat untuk memenuhi validitas isi.

TES HASIL BELAJAR Bidang studi : ... Semester : ... Kelas : ...

Standar Kompetensi Kompetensi _Dasar _pertanyaanJumlah _{Jenis tes}

Menurut Gregory (2000), validitas isi menunjukkan sejauh mana pertanyaan, tugas, atau butir tes/instrumen mampu mewakili secara keseluruhan dan proporsional perilaku sampel. Untuk mengetahui validitas isi, penulis soal perlu menelaah kesesuaian tes yang telah disusun sesuai dengan kurikulum (standar isi). Validitas isi menunjuk pada sejauh mana instrumen tersebut mencerminkan isi yang dikehendaki kurikulum. Validitas

(7)

isi kadang disebut juga validitas kurikuler. Dalam menilai validitas isi suatu instrumen, kita berkepentingan dengan pertanyaan seberapa jauh isi instrumen itu mencerminkan seluruh isi kurikulum yang diukur. Agar dapat memiliki validitas isi, suatu ukuran harus secara memadai menarik sampel topik ataupun proses kognitif yang terdapat dalam keterampilan yang dinilai. Di samping itu, topik dan proses kognitif itu harus ditarik sampelnya sesuai dengan penekanannya di seluruh isi kurikulum.

Untuk menyusun tes yang memiliki validitas yang tinggi, ditempuh prosedur (1) identifikasi kompetensi secara perinci dan perincian indikator dalam kurikulum, (2) membuat kisi-kisi secara lengkap dan teperinci yang mencantumkan pula sebaran tugas, serta (3) menjabarkan dan menulis butir soal/tugas dengan berpijak pada kisi-kisi tersebut. Untuk mengetahui apakah suatu tes memiliki validitas isi, harus dilakukan penelaahan kisi-kisi tes untuk memastikan bahwa soal-soal tersebut sudah mewakili atau mencerminkan keseluruhan isi kurikulum secara proporsional.

Bagaimana mengukur validitas isi tes bahasa? Validitas isi dalam tes menulis dapat ditentukan dengan cara membandingkan butir-butir yang terdapat dalam tes menulis dengan butir-butir yang terdapat dalam kurikulum. Cara ini dilakukan untuk menentukan validitas isi tes menulis yang digunakan dalam pengajaran.

Tes dikatakan memiliki validitas isi jika sesuai dengan kemampuan dasar, materi pembelajaran, dan indikator dalam kurikulum. Untuk mengetahui kesahihan suatu alat penilaian, perlu dilakukan telaah untuk mencocokkan antara kisi-kisi dan yang dihasilkan dengan kompetensi dasar serta indikator yang ada dalam kurikulum.

2. Validitas Bangun Pengertian (Construct Validity)

Kesahihan (validitas) adalah ketepatan data yang diperoleh sesuai dengan sifat variabel yang diukur. Kesahihan tidak sekadar mengukur apa yang seharusnya diukur, melainkan juga mengandung pengertian sejauh mana informasi yang diperoleh dari pengukuran dapat diinterpretasikan sebagai tingkah laku atau karakteristik yang diukur (Griftin, 1994: 12). Validitas konstruk (construct validity) berkenaan dengan kesanggupan alat ukur mengukur bangunan pengertian yang diukur. Menurut Djaali (2008: 51), validitas konstruk adalah validitas yang mempermasalahkan seberapa jauh butir-butir tes mampu mengukur apa yang benar-benar hendak diukur sesuai dengan bangunan konsep yang telah ditetapkan.

(8)

Konstruk perlu dijabarkan menjadi indikator-indikator. Butir-butir soal harus disusun untuk masing-masing indikator. Konstruk perlu dijabarkan menjadi indikator-indikator. Butir-butir soal harus disusun untuk masing-masing indikator. Indikator harus lengkap sehingga dapat mengukur bangunan konsep secara utuh.

Pengertian-pengertian yang terkandung dalam konsep perlu dijabarkan yang lebih spesifik sehingga mudah diukur. Ini berarti setiap konsep harus dikembangkan indikator-indikatornya. Dengan adanya indikator dari setiap konsep, bangun pengertian akan tampak dan memudahkan dalam menetapkan cara pengukuran. Menetapkan indikator suatu konsep dapat dilakukan dalam dua cara, yakni menggunakan pemahaman atau logika berpikir atas dasar teori pengetahuan ilmiah dan menggunakan pengalaman empiris.

Untuk memahami dengan baik implementasi konsep validitas konstruk, dapat diamati tiga contoh penggunaan alat penilaian berikut.

Kompetensi dasar: mampu menulis iklan dengan bahasa yang menarik.

Indikator:

a. mampu menulis iklan dengan isi yang bisa meyakinkan orang untuk membeli

b. mampu menulis iklan dengan bahasa yang menarik.

Contoh 1

Penilaian yang dilakukan guru berupa tes untuk mengidentifikasi pemahaman siswa tentang iklan (tes dilakukan menyatu dengan beberapa kompetensi yang lain).

a. Sebutkan jenis-jenis iklan! b. Bacalah kutipan iklan berikut!

(9)

Iklan di atas termasuk iklan …. a. iklan penawaran b. iklan pengumuman c. iklan produk d. iklan jasa Contoh 2 Penilaian

Sekolahmu akan menerbitkan majalah sekolah AKSI. Buatlah iklan agar teman-temanmu tertarik membeli majalah tersebut!

Rubrik berikut digunakan untuk menilai iklan yang dibuat siswa. Berilah tanda cek sesuai dengan hasil pengamatanmu!

No Subkompetensi Perincian Indikator Ya Tidak Bukti

1. Memilih isi iklan yang sesuai dengan tujuan iklan untuk memlakukan persuasi

a. Iklan mengandung penjelasan barang/jasa yang diiklankan secara jelas, tetapi ringkas b. Iklan berisi ajakan/alasan untuk

menggunakan apa yang diiklankan (kelebihan barang/ jasa)

2. Memilih isi dan bentuk iklan dan kreatif

a. Isi iklan menjelaskan dan memuji barang

b. Bentuk pujian/ajakan membeli kreatif

(10)

3. Memilih diksi dan struktur yang menarik

a. Memilih penggunaan kata yang dapat menarik perhatian (perulangan bunyi, perulangan kata, dan berkaitan dengan nama/identitas barang/jasa yang diiklankan)

b. Memilih struktur kalimat yang padat dan singkat

Dari dua contoh di atas, validitas konstruk terjadi pada penilaian yang kedua karena mengukur kemampuan menulis iklan sesuai dengan konsep menulis iklan. Menulis iklan adalah kemampuan menyusun ide dengan tujuan menawarkan barang dengan menggunakan bahasa tulis yang menarik. Contoh 1 tidak memiliki validitas konstruk yang tinggi karena tidak sesuai dengan apa yang akan diukur pada indikator. Pemahaman tentang jenis-jenis iklan bukan termasuk pada konsep menyusun iklan.

Konsep mampu membacakan berita, indikator empirisnya adalah (a) mampu melisankan bahasa verbal yang dibaca sesuai isi naskah, (b) mampu membacakan pengumuman dengan intonasi bervariasi, (c) mampu memberi jeda dan tekanan yang sesuai pada waktu membacakan, serta (d) mampu membacakan dengan lancar dan percaya diri.

Mengukur indikator-indikator tersebut berarti mengukur bangun pengertian yang terdapat dalam konsep mampu membacakan berita. Demikian juga validitas konstruk tes menulis dapat ditentukan dengan cara membandingkan butir-butir tes dengan teori yang melandasi kemampuan menulis. Jika menulis dipandang sebagai aktivitas pengekspresian ide, gagasan, pikiran, atau perasaan ke dalam lambang-lambang kebahasaan dengan melibatkan kegiatan pengolahan bahasa dan isi; tes yang memiliki validitas konstruk akan mencakup semua aspek tersebut. Jika menulis dipandang sebagai proses mengolah ide dan sarana pengekspresian, sudah seharusnya pelaksanaan tes menulis juga mencerminkan adanya proses.

Pada tes menulis, validitas konstruk berkaitan dengan bangunan pengertian menulis, yakni proses pengembangan gagasan sesuai dengan konteks komunikasi dalam bentuk wacana tulis. Dengan demikian, menulis adalah keterampilan produktif tulis yang disesuaikan dengan konteks. Hal ini berimplikasi pada penentuan aspek dalam rubrik (pedoman penyekoran). Dengan pemahaman bahwa menulis memiliki konstruk pemilihan dan pengembangan isi, penggunaan aspek grafis dan mekanik, pemilihan dan

(11)

penggunaan kata/kalimat secara tertulis; rubrik yang akan disusun perlu mengamati faktor-faktor tersebut.

Menurut Djaali (2008: 54), indikator-indikator tersebut harus memerinci dan sesuai dengan konstruk kemampuan yang akan diukur. Selain itu, indikator harus lengkap untuk mengukur suatu konstruk yang utuh. Apabila hasil tes menunjukkan indikator-indikator tes yang tidak berhubungan secara positif satu sama lain, itu berarti ukuran tersebut tidak memiliki validitas bangun pengertian. Atas dasar itu, indikatornya perlu ditinjau atau diperbaiki kembali.

Jadi, untuk mengetahui validitas konstruk suatu instrumen atau tes, diperlukan penelaahan teoretis dari suatu bangunan konsep yang akan diukur. Perumusan konstruk dilakukan berdasarkan sintesis teori yang telah ada.

Kesahihan konstruksi berkaitan dengan pengertian seberapa jauh suatu tes mengukur sifat konstruk tertentu. Kesahihan konstruksi juga mengandung pengertian sejauh mana hasil tes tersebut dapat ditafsirkan menurut konstruk (bangunan pengertian) yang ditentukan berdasarkan pendekatan atau teori tertentu. Istilah bangunan pengertian tersebut dipakai untuk mengacu sesuatu yang tidak dapat diukur secara langsung, tetapi dapat menerangkan akibat-akibat yang dapat diamati. Konstruk merupakan konsepsi hipotetik hasil imajinasi para ilmuwan yang berusaha menjelaskan konsep-konsep abstrak. Konstruk merupakan atribut psikologis yang tidak dapat diukur secara langsung, tetapi indikator-indikator tersebut dapat diukur.

Kesahihan konstruksi ini didasarkan pada dua pendekatan, yakni pendekatan logis dan pendekatan empiris. Dalam pendekatan logis, masalah yang dipersoalkan adalah indikator-indikator apa saja yang membentuk konstruk dan apakah cukup mewakili indikator-indikator tersebut untuk mewakili konstruk yang hendak diukur. Dalam hal ini, jelas dipersoalkan apakah butir-butir tes yang akan digunakan relevan untuk menaksir unsur-unsur yang terdapat dalam konstruk yang hendak diukur.

Berbeda dengan pendekatan logis yang menekankan penalaran dalam identifikasi indikator-indikator suatu konstruk, pendekatan empiris kesahihan konstruksi ini mencakup (1) secara internal hubungan-hubungan dalam tes itu hendaknya seperti yang diramalkan serta (2) secara eksternal hubungan-hubungan antara skor tes dan pengamatan-pengamatan yang lain hendaknya konsisten dengan konstruk yang ditentukan. Apabila suatu tes setelah disusun dan dilaksanakan ditemukan bahwa unsur-unsurnya yang telah diidentifikasi tidak berkaitan secara positif, dapat dikatakan bahwa alat tersebut tidak memiliki kesahihan konstruksi.

(12)

Jenis kesahihan yang berhubungan dengan hal itu mengacu pada hubungan antara skor suatu instrumen pengukuran dan suatu variabel di luar yang telah tepercaya dan dapat mengukur langsung ciri-ciri yang diselidiki. Lalu, bagaimana cara menentukan kesahihan konstruksi suatu tes berbahasa? Kesahihan konstruksi tes menulis, misalnya, dapat ditentukan dengan cara membandingkan butir-butir tes dengan teori yang melandasi kemampuan menulis. Jika menulis dipandang sebagai aktivitas pengekspresian ide, gagasan, pikiran, atau perasaan ke dalam lambang-lambang kebahasaan dengan melibatkan kegiatan pengolahan bahasa dan isi, tes yang memiliki kesahihan konstruksi akan mencakup semua aspek tersebut. Jika keterampilan menulis dipandang sebagai proses mengolah ide dan sarana pengekspresian bahasa, semestinya pelaksanaan tes menulis itu mencerminkan adanya proses.

3. Validitas Bandingan

Kesahihan ini lebih umum dikenal dengan kesahihan empiris. Sebuah tes dikatakan memiliki kesahihan empiris jika hasilnya sesuai dengan pengalaman. Dalam hal ini, hasil tes dipasangkan dengan hasil pengalaman. Pengalaman selalu berkaitan dengan hal yang telah lampau sehingga data pengalaman tersebut sekarang sudah ada (concurrent).

Dalam membandingkan hasil sebuah tes, diperlukan suatu kriteria atau alat banding. Dengan demikian, hasil tes merupakan sesuatu yang dibandingkan. Misalnya, kesahihan bandingan tes menulis ditentukan dengan cara membandingkan tes menulis dengan tes yang sejenis di masa lampau. Dari hasil perbandingan yang dilakukan dengan menggunakan teknik statistik, akan dapat diketahui tingkat kesahihannya.

C. KESAHIHAN PREDIKSI (PREDICTIVE VALIDITY)

Anda pasti mengetahui bahwa prediksi itu adalah ramalan. Lalu, tahukah Anda tes yang bagaimana yang dikatakan memiliki kesahihan prediksi? Sebuah tes dikatakan memiliki kesahihan prediksi atau kesahihan ramalan apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi pada masa yang akan datang. Misalnya, tes masuk perguruan tinggi adalah sebuah tes yang diperkirakan mampu meramalkan keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan datang. Calon yang tersaring berdasarkan hasil tes diharapkan mencerminkan tinggi rendahnya

(13)

kemampuan mengikuti kuliah. Jika nilai tesnya tinggi, tentu hal itu menjamin keberhasilannya kelak. Sebaliknya, seorang calon dikatakan tidak lulus tes karena memiliki nilai tes yang rendah, jadi diperkirakan akan tidak mampu mengikuti perkuliahan yang akan datang.

Alat pembanding kesahihan prediksi adalah nilai-nilai yang diperoleh setelah peserta tes mengikuti pelajaran di perguruan tinggi. Jika ternyata siapa yang memiliki nilai tes lebih tinggi gagal dalam ujian semester I dibandingkan dengan yang dahulu nilai tesnya lebih rendah; tes masuk yang dimaksud tidak memiliki kesahihan prediksi. Dalam tes berbahasa misalnya, kesahihan ramalan tes menulis dapat ditentukan dengan cara membandingkan hasil tes menulis dengan prestasi tes di masa mendatang.

Validitas ramalan dikaitkan dengan kriteria tertentu. Dalam validitas ini, yang diutamakan bukan isi tes, tetapi kriterianya: apakah alat ukur tersebut dapat digunakan untuk meramalkan suatu ciri atau perilaku tertentu atau kriteria tertentu yang diinginkan. Misalnya, tes masuk SNPTN dalam bidang membaca apakah dapat meramakan prestasi mahasiswa di kampus nanti. Dengan kata lain, validitas ini mengandung ciri adanya relevansi dan keajekan atau ketetapan (reliability) untuk digunakan meramal prestasi mahasiswa di kampusnya pada masa mendatang. Validitas ramalan ini mengandung dua makna. Pertama, validitas jangka pendek. Kedua, jangka panjang. Validitas jangka pendek artinya daya ramal alat ukur tersebut hanya untuk masa yang tidak lama. Artinya, skor tersebut berkorelasi pada waktu yang sama. Sementara itu, validitas jangka panjang mengandung makna skor tersebut akan berkorelasi juga di kemudian hari.

D. KESAHIHAN KRITERIA

Berbeda dengan pendekatan logis, kesahihan kriteria dibuktikan dengan pendekatan empiris. Pembuktian kesahihan ini dikaitkan dengan kriteria dan menggunakan teknik-teknik empiris untuk menyelidiki hubungan antara skor tes yang diperoleh dan kriteria luar yang tepercaya serta berkaitan dengan ciri-ciri tes yang dicari kesahihannya. Jadi, bagi penyelidikan kesahihan dengan pendekatan ini, identifikasi kriteria yang dipakai itu penting sekali. Ada beberapa ciri yang harus dimiliki oleh suatu tes yang dijadikan ukuran kriteria.

1. Ciri yang terpenting ialah relevansi. Kita harus menilai apakah kriteria yang telah dipilih itu benar-benar menggambarkan ciri-ciri yang tepat

(14)

dari tingkah laku yang sedang dievaluasi. Kalau kriteria itu tidak mencerminkan atribut yang sedang dievaluasi, akan tidak ada artinya menggunakan kriteria tersebut sebagai dasar untuk menetapkan kesahihan tes lainnya.

2. Ciri yang kedua bagi kriteria tersebut adalah suatu kriteria harus reliabel. Ini berarti bahwa kriteria tersebut harus merupakan ukuran yang ajek bagi atribut tersebut dari waktu ke waktu dan dari satu situasi ke situasi yang lain. Apabila kriteria itu sendiri tidak konsisten, orang pun tidak akan mengharapkan kriteria tersebut dapat bertalian dengan suatu peramal (predictor) secara konsisten pula.

3. Syarat yang ketiga, suatu kriteria hendaknya bebas dari bias. Artinya, pemberian skor pada suatu ukuran kriteria hendaknya tidak dipengaruhi oleh faktor-faktor, selain penampilan sebenarnya pada kriteria.

Setelah kriteria luar itu ditetapkan, data empiris pun segera dikumpulkan untuk menilai hubungan antara skor pada instrumen pengukur (X) dengan skor pada kriteria (Y). Instrumen yang akan ditetapkan kesahihannya itu diberikan kepada sekelompok individu yang dianggap mewakili kelompok mereka yang akan diukur dengan menggunakan alat tersebut. Skor yang dicapai oleh para subjek ini pada peramal (X) disimpan dan tidak digunakan untuk membuat keputusan yang mungkin bisa memengaruhi kelompok tersebut setelah itu. Hal ini dilakukan dengan tujuan menghindarkan terjadinya kontaminasi terhadap skor kriteria.

1. Prosedur apa saja yang harus ditempuh untuk menyusun tes yang memiliki kesahihan isi tinggi?

2) Carilah kompetensi dasar pada standar isi mata pelajaran bahasa Indonesia! Buatlah indikator dan soal yang memiliki validitas konstruk tinggi!

LATIHAN

Untuk memperdalam pemahaman Anda mengenai materi di atas, kerjakanlah latihan berikut!

(15)

Petunjuk Jawaban Latihan

Untuk mengukur keberhasilan Anda dalam menjawab soal pelatihan di atas, coba Anda cocokkan dengan rambu-rambu jawaban berikut ini.

1) Prosedur yang harus ditempuh untuk menyusun tes yang memiliki kesahihan isi tinggi mencakup hal-hal berikut.

a. Identifikasi kurikulum (standar isi) dan perincian tingkat kemampuan belajar yang akan diukur.

b. Membuat kisi-kisi secara lengkap dan teperinci yang mencantumkan pula sebaran pertanyaan.

c. Menjabarkan dan menulis butir soal tes dengan berpijak pada kisi- kisi tersebut.

2) Untuk mendapatkan validitas konstruk yang tinggi, ditempuh langkah-langkah berikut.

a. Identifikasi kompetensi dasar yang akan dinilai.

b. Identifikasi ciri-ciri kompetensi dasar dan perinci jabaran keterampilan dari kompetensi dasar.

c. Menentukan indikator dari jabaran kompetensi dasar. d. Menentukan alat penilaian yang sesuai indikator. e. Melaksanakan pengukuran terhadap indikator. f. Menyimpulkan hasil.

Untuk membantu Anda dalam mempertajam pemahaman Anda terhadap uraian materi modul ini, sebaiknya Anda membaca rangkuman materi yang tersaji dalam uraian berikut ini.

Terdapat tiga aspek yang harus diperhatikan dalam pembuatan alat evaluasi, yakni aspek kesahihan (validity), aspek ketepercayaan (reliability), dan aspek kepraktisan (practicability).

Sebuah tes dikatakan sahih atau valid apabila dapat mengukur apa yang seharusnya diukur. Kesahihan tes dapat dibedakan menjadi lima macam, yaitu kesahihan isi (content validity), kesahihan konstruksi (construct validity), kesahihan bandingan (concurrent validity), kesahihan prediksi (predictive validity), dan kesahihan kriteria. Kesahihan isi (content validity) mengacu pada ketetapan butir-butir tes dalam mengukur bahan atau materi yang seharusnya diukur. Kesahihan

(16)

konstruksi (construct validity) mengacu pada ketetapan tes dalam mengukur konsep (konstruk) kemampuan yang seharusnya diukur. Kesahihan bandingan (concurrent validity) mengacu pada adanya hubungan skor siswa dengan tes lain yang sejenis. Kesahihan prediksi (predictive validity) mengacu pada ketetapan tes dalam meramalkan kemampuan tes di masa mendatang. Kesahihan kriteria mengacu pada ketepatan tes dibandingkan dengan hasil tes lain yang relevan.

1) Sebuah tes hendaknya dapat mengukur apa yang seharusnya diukur. Itu artinya tes itu harus ….

A. valid B. praktis C. tepercaya D. ekonomis

2) Seorang guru menyusun sebuah tes dengan mengidentifikasi karakteristik suatu kompetensi dasar dan menjabarkannya menjadi beberapa indikator. Guru tersebut menyusun tes yang memiliki syarat validitas ….

A. konstruk B. isi C. bandingan D. empiris

3) Soal SNPTN digunakan untuk memprediksi kemampuan mahasiswa ketika nanti belajar di perguruan tinggi. Hal tersebut berkaitan dengan validitas ….

A. isi B. konstruk C. bandingan D. kurikuler

4) Untuk mendapatkan alat penilaian yang memiliki validitas isi yang tinggi, perlu dilakukan hal-hal berikut, kecuali ....

A. mengidentifikasi isi kurikulum B. membuat kisi-kisi

C. menulis soal berdasarkan kisi-kisi D. mengolah hasil dengan patokan tertentu

TES FO R MATIF 1

(17)

5) Untuk mendapatkan validitas konstruk yang tinggi, diperlukan kegiatan ....

A. penyediaan fasilitas penunjang yang sesuai B. pengkajian konsep kompetensi yang diukur C. pemilihan materi/isi kurikulum

D. pengujian secara kontinu

6) Kesahihan yang didasarkan pada pendekatan logis sekaligus pendekatan empiris adalah kesahihan validitas ….

A. isi B. konstruk

C. bandingan masa sekarang

D. bandingan masa yang akan datang

7) Pembuktian validitas bandingan menggunakan pendekatan .... A. empiris

B. logis

C. logis dan empiris D. konseptual

8) Pak Dani mengorelasikan antara skor kemampuan membaca siswa dari tes membaca yang dibuat guru dan tes membaca yang dikembangkan para pakar. Pak Dani mencari bukti validitas ....

A. isi B. bandingan C. konstruk D. prediksi

9) Validitas yang pembuktiannya dapat dilakukan secara logis adalah validitas ....

A. isi B. bandingan C. kriteria D. prediksi

10) Penggunaan tes tertulis untuk mengukur keterampilan berbicara tidak sesuai dengan validitas ....

A. isi B. bandingan C. konstruk D. prediksi

(18)

Cocokkanlah jawaban Anda dengan Kunci Jawaban Tes Formatif 1 yang terdapat di bagian akhir modul ini. Hitunglah jawaban yang benar. Kemudian, gunakan rumus berikut untuk mengetahui tingkat penguasaan Anda terhadap materi Kegiatan Belajar 1.

Arti tingkat penguasaan: 90 - 100% = baik sekali 80 - 89% = baik 70 - 79% = cukup < 70% = kurang

Apabila mencapai tingkat penguasaan 80% atau lebih, Anda dapat meneruskan dengan Kegiatan Belajar 2. Bagus! Jika masih di bawah 80%, Anda harus mengulangi materi Kegiatan Belajar 1, terutama bagian yang belum dikuasai.

Tingkat penguasaan = Jumlah Jawaban yang Benar 100% Jumlah Soal

(19)

Kegiatan B elajar 2

Reliabilitas pada Penilaian Hasil

Pembelajaran Bahasa Indonesia

A. PENGERTIAN RELIABILITAS

Menurut Baker (1998: 60), reliabilitas biasanya didefinisikan sebagai konsistensi dari tes. Konsistensi hanyalah merupakan salah satu aspek dari reliabilitas. Ketelitian atau akurasi adalah hal lain. Definisi reliabilitas yang lebih komprehensif adalah derajat ketepatan dan ketelitian atau akurasi yang ditunjukkan oleh instrumen pengukuran. Pada tes bahasa, reliabilitas berkaitan juga dengan reliabilitas antarpenilai. Sifat reliabel (andal) dari sebuah alat ukur berkenaan dengan kemampuan alat ukur tersebut memberikan hasil yang konsisten. Istilah reliabilitas sering disamakan dengan consistency, stability, atau dependability. Pada prinsipnya, reliabilitas menunjukkan sejauh mana pengukuran itu dapat memberikan hasil yang relatif tidak berbeda apabila dilakukan pengukuran kembali terhadap subjek yang sama. Sebagaimana digunakan dalam psikometri, istilah reliabilitas selalu berarti konsistensi. Menguji reliabilitas berarti menguji konsistensi skor yang diperoleh dari pengukuran yang berulang-ulang menggunakan tes dan responden yang sama (Anne Anastasi, 1994: 27).

Menurut Aiken (2002: 85), reliabilitas tidak sama dengan stabilitas. Dalam pengukuran reliabilitas, diasumsikan bahwa instrumen mengukur karakteristik yang relatif stabil. Ketidakandalan (unreliability) berkaitan dengan hasil kesalahan pengukuran yang dilakukan kondisi temporer, misalnya rendahnya motivasi atau kondisi eksternal, seperti lingkungan pengujian yang tidak nyaman. Pengukuran reliabilitas diwujudkan dalam koefisien tes ulang, koefisien uji paralel, dan koefisien konsistensi internal.

Menurut McMillan, reliabilitas mengacu pada stabilitas skor antarwaktu dan konsistensi internal. Stabilitas skor mengacu pada sejauh mana konsistensi skor tes dan satu pengukuran ke pengukuran lainnya. Ukuran reliabilitas menunjukkan suatu estimasi sejauh mana variasi yang diharapkan pada kondisi yang berbeda. Pengukuran reliabilitas dalam hal ini bisa dilakukan dengan tes ulang atau tes paralel. Sementara itu, konsistensi internal mengacu pada tingkat homogenitas butir-butir yang mengukur hal

(20)

yang sama. Pengukuran reliabilitas dalam konsep konsistensi internal dapat menggunakan kuder-richardson atau alpha cronbach (Macmillan, 2008: 39).

Menurut Naga (2008: 55), reliabilitas berkaitan dengan komponen skor tulen. Makin besar komponen skor tulen dan makin kecil komponen skor keliru; semakin tinggi reliabilitas skor tersebut. Makin tinggi reliabilitas, makin dapat dipercaya skor itu.

Reliabilitas, menurut Djaali dan Muljono (2008: 56), mencakup reliabilitas konsistensi tanggapan dan reliabilitas konsistensi gabungan butir. Reliabilitas konsistensi tanggapan responden mempersoalkan apakah tanggapan responden terhadap tes sudah konsisten atau belum. Reliabilitas gabungan butir berkaitan dengan kemantapan atau konsistensi antara butir-butir suatu instrumen. Konsep reliabilitas mengacu pada konsep konsistensi gabungan item, yaitu kemantapan butir-butir suatu tes. Reliabilitas pada penelitian ini diukur dengan indeks reliabilitas alpha cronbach. Pemilihan koefisien reliabilitas yang memadai ditentukan dengan kriteria tertentu. Menurut Naga, untuk menentukan besarnya koefisien reliabilitas yang memadai, hal itu dilakukan dengan dua kriteria empiris. Kriteria empiris berkaitan dengan karakteristik bidang ilmu dan statistika. Tidak semua bidang ilmu memiliki keakuratan yang tinggi. Koefisien reliabilitas hasil belajar matematika bisa mencapai 0,90, tetapi bidang ilmu lain tidak demikian. Untuk pengukuran bidang ilmu yang belum memiliki kecermatan tinggi, penentuan koefisien yang memadai bisa dengan memeriksa jurnal ilmu yang bersangkutan. Jika pada umumnya ditemukan koefisien reliabilitas sebesar 0,4, koefisien yang memadai bisa 0,4.

Pada tes bahasa dengan respons tertulis esai, koefisien reliabilitas instrumen dikatakan memadai apabila nilai koefisiensinya minimal 0,6, terutama untuk tes bahasa yang bersifat uraian, nilai koefisien reliabilitasnya cenderung tidak terlalu tinggi. Selanjutnya, dikemukakan Baker bahwa koefisien reliabilitas interrater minimal sebesar 0,7. Aiken juga mengemukakan bahwa koefisien reliabilitas interrater yang memadai sebesar 0,6 atau 0,7. Berdasarkan kriteria-kriteria tersebut, penelitian ini menggunakan kriteria minimal 0,6 sebagai batas koefisien reliabilitas yang memadai. Hal ini mengingat bahwa tes literasi yang dikembangkan bersifat uraian.

Uji reliabilitas interrater juga dilakukan untuk menguji reliabilitas pedoman penyekoran hasil pengamatan. Interrater dilakukan untuk menguji reliabilitas hasil penyekoran beberapa korektor terhadap sejumlah

(21)

performansi/produk yang diamati. Pengujian reliabilitas interrater bisa dilakukan dengan menghitung korelasi antarpenilai. Penghitungan dilakukan dengan langkah: (1) pengaturan data hasil pengukuran, (2) menghitung r antarrater, dan (3) menentukan reliabilitas antarrater berdasarkan indeks korelasi. Reliabilitas interrater dilakukan pada data hasil observasi terhadap butir-butir pada suatu instrumen (Macmillan, 2008: 42). Baker (1989: 61) juga mengemukakan batas reliabilitas interrater minimal 0,7. Kriteria minimal koefisien reliabilitas interrater yang digunakan dalam penelitian ini adalah 0,7.

Analisis reliabilitas instrumen dilakukan terhadap butir-butir yang valid. Dalam kasus skala yang butir-butirnya tidak dapat dibagi dua ataupun dibagi tiga sama banyak, pengujian reliabilitasnya dilakukan melalui teknik analisis varians. Salah satu teknik analisis varians yang sangat populer untuk keperluan ini adalah teknik analisis varians dari kuder richadson 21 atau teknik alpha cronbach. Menurut Aiken (2004), teknik alpha cronbach sesuai untuk data campuran.

Uji reliabilitas juga dikenakan pada uji interrater. Untuk menjaga reliabilitas butir soal esai, perlu analisis interrater (interscorer reliability). Teknik analisis dilakukan dengan dua cara, yaitu mengorelasikan sejumlah hasil penyekoran oleh dua penilai atau bisa dilakukan analisis beberapa penilai merespons sebuah hasil.

Reliabilitas alat ukur adalah ketetapan atau keajekan alat tersebut dalam mengukur apa yang diukurnya. Artinya, kapan pun alat ukur tersebut digunakan akan memberikan hasil ukur yang sama. Contoh paling nyata adalah timbangan atau meteran. Hal yang sama terjadi untuk alat ukur suatu gejala, tingkah laku, ciri atau sifat individu, dan lain-lain. Misalnya, alat ukur prestasi belajar, seperti tes hasil belajar, alat ukur sikap, kuesioner, dan lain-lain, hendaknya meneliti sifat keajekan tersebut.

Tes hasil belajar dikatakan ajek apabila hasil pengukuran saat ini menunjukkan kesamaan hasil pada saat yang berlainan waktunya terhadap siswa yang sama. Misalnya, siswa kelas V pada hari ini di tes kemampuan matematika. Minggu berikutnya, siswa tersebut di tes kembali. Hasil dari kedua tes relatif sama. Walaupun demikian, masih mungkin terjadi ada perbedaan hasil untuk hal-hal tertentu akibat faktor kebetulan, selang waktu, dan terjadinya perubahan pandangan siswa terhadap soal yang sama. Jika ini terjadi, kelemahan terletak dalam alat ukur itu yang tidak memiliki kepastian

(22)

jawaban atau meragukan siswa. Dengan kata lain, derajat reliabilitasnya masih rendah.

B. PENGUKURAN RELIABILITAS

Indeks reliabilitas alat ukur dapat dicari dengan mengorelasikan skor-skor yang diperoleh dari hasil pengukuran yang berulang-ulang pada waktu yang berbeda atau dengan kelompok pertanyaan yang sepadan. Prosedur ini dilakukan dengan cara memberikan tes dua kali kepada subjek yang sama pada waktu yang berbeda. Cara kedua adalah membagi alat ukur (tes) menjadi dua bagian yang sama atau yang setaraf untuk melihat keajekan tes tersebut. Cara yang pertama dikenal dengan tes ulang (test retest) dan cara kedua dikenal dengan pecahan sebanding/setara. Kedua cara tersebut diuraikan berikut ini.

1. Reliabilitas Tes Ulang

Tes ulang (test-retest) adalah penggunaan alat ukur terhadap subjek yang diukur dan dilakukan dua kali dalam waktu yang berlainan. Misalnya, tes hasil belajar matematika untuk siswa SD kelas V diberikan hari ini, lalu diperiksa hasilnya. Seminggu kemudian, tes tersebut diberikan lagi pada siswa yang sama dan hasilnya diperiksa. Hasil pengukuran yang pertama kemudian dikorelasikan dengan hasil pengukuran yang kedua untuk mendapatkan koefisien korelasinya (r). Koefisien korelasi ini disebut koefisien reliabilitas tes ulang yang hasilnya akan bergerak dari - 1,0 sampai + 1,0. Apabila koefisien reliabilitas mendekati angka 1,0, itu merupakan indeks reliabilitas tinggi. Artinya, hasil pengukuran yang pertama relatif sama dengan hasil pengukuran yang kedua. Dengan kata lain, alat ukur tersebut memiliki tingkat keajekan atau ketetapan (reliabel). Untuk pengukuran ilmu-ilmu sosial dan pendidikan, indeks reliabilitas 0,75 sudah dianggap cukup, mengingat sifat dan ilmu sosial serta pendidikan berbeda dengan ilmu-ilmu eksakta.

Jarak atau selang waktu antara pengukuran pertama dan pengukuran kedua sebaiknya tidak terlalu dekat dan juga tidak terlalu jauh. Jika terlalu dekat/pendek, hasil pengukuran banyak dipengaruhi oleh ingatan siswa tentang jawaban yang diberikan pada pengukuran yang pertama, bukan karena keajekan alat ukurnya. Sebaliknya, jika selang waktu pengukuran pertama dengan pengukuran kedua terlalu lama, bisa terjadi adanya

(23)

perubahan pengetahuan dan pengalaman siswa sehingga memengaruhi koefisien reliabilitasnya. Asumsi yang digunakan dalam tes ulang ialah karakteristik yang diukur oleh alat ukur tersebut stabil sepanjang waktu sehingga jika ada perubahan skor hasil kedua pengukuran lebih disebabkan kesalahan alat ukur. Cara tes ulang (test-retest) banyak digunakan dalam menetapkan atau menentukan tingkat reliabilitas alat ukur dalam penelitian sosial dan pendidikan.

2. Reliabilitas Pecahan Setara

Reliabilitas bentuk pecahan setara tidak dilakukan pengulangan pengukuran kepada subjek yang sama, tetapi digunakan hasil dari bentuk tes yang sebanding atau setara yang diberikan kepada subjek yang sama pada waktu yang sama pula. Dengan demikian, diperlukan dua perangkat alat ukur yang disusun sedemikian rupa agar memiliki derajat kesamaan atau kesetaraan, baik dari segi, isi, tingkat kesukaran alat ukur, abilitas yang diukur, jumlah pertanyaan, bentuk pertanyaan, maupun segi-segi teknis lainnya. Yang berbeda hanyalah pertanyaan. Apabila penyusun kesetaraan alat ukur bisa dicapai seoptimal mungkin, koefisien reliabilitas dari prosedur ini dianggap paling baik dibandingkan dengan prosedur tes ulang. Namun, kesulitannya terletak dalam menyusun perangkat alat ukur yang benar-benar mengandung derajat kesetaraan tinggi.

3. Reliabilitas Belah Dua

Reliabilitas belah dua mirip dengan reliabilitas pecahan setara, terutama dari pelaksanaannya. Dalam prosedur ini, alat ukur diberikan kepada kelompok subjek cukup satu kali atau satu saat. Butir-butir soal dibagi dua bagian yang sebanding, biasanya dibedakan soal nomor genap dengan soal nomor ganjil. Setiap bagian soal diperiksa hasilnya, kemudian skor dari kedua bagian tersebut dikorelasikan untuk dicari koefisien korelasinya. Mengingat korelasi tersebut hanya berlaku separuh dan tidak untuk seluruh pertanyaan, koefisien korelasi yang didapatkannya tidak untuk seluruh soal, tetapi hanya separuhnya. Oleh sebab itu, koefisien korelasi belah dua perlu diubah dalam koefisien korelasi untuk seluruh soal dengan menggunakan rumus ramalan Spearmen Brown.

(24)

1 1 2 2 2 1 1 1 2 2 xx r r r  

rxx = koefisien reliabilitas keseluruhan 1 1

2 2

r = korelasi (r) dari belah dua

Contoh

Koefisien korelasi belah dua adalah 0,60. (2)(0,60) 1 0,60 1, 20 0, 75 1, 60 xx r    

Dari contoh di atas, terjadi peningkatan koefisien korelasinya setelah dilakukan pengubahan. Asumsi yang digunakan dalam prosedur belah dua adalah kedua bagian alat ukur itu paralel sekalipun sering keliru atau tidak benar. Akibat adanya pengubahan koefisien reliabilitas, prosedur belah dua cenderung menunjukkan koefisien reliabilitas yang tinggi daripada prosedur tes ulang dan pecahan setara. Oleh sebab itu, penggunaan belah dua harus lebih berhati-hati. Prosedur ini digunakan apabila alat ukur mengandung atau terdiri atas banyak item, item relatif berat/sukar (power test), serta materi yang diuji cukup komprehensif sehingga memungkinkan penyusunan dua soal untuk satu permasalahan yang sama agar memenuhi belah dua.

4. Kesamaan Rasional

Di samping cara-cara yang dijelaskan di atas, ada prosedur menghitung reliabilitas, tanpa melakukan korelasi dari dua pengukuran atau pecahan setara dan belah dua. Cara tersebut adalah kesamaan rasional. Prosedur ini dilakukan dengan menghubungkan setiap butir dalam satu tes dengan butir-butir lainnya dan dengan tes itu sendiri secara keseluruhan. Salah satu cara yang sering digunakan adalah menggunakan rumus kuder-rechardson atau KR 21 sebagai berikut.

(25)









2 2 1 x xx x K X K X r K      

rxx = reliabilitas tes secara keseluruhan K = jumlah butir soal dalam tes 2_{= variasi skor}

X = mean skor

Misalnya, disusun tes sebanyak 80 soal. Setelah diberikan kepada sejumlah siswa dalam kelas tertentu, lalu dicari nilai rata-rata dan simpangan bakunya. Misalnya, diperoleh nilai rata-rata 60 dan simpangan bakunya 8. Dengan rumus di atas, diperoleh berikut ini.

 









2 2 80 8 60 80 60 8 80 1 5120 1200 5076 3920 5076 0, 77 xx r        

Uraian ukuran reliabilitas yang telah dijelaskan di atas dapat dipertimbangkan oleh peneliti. Cara mana yang paling tepat digunakan ber-gantung pada peneliti. Pertimbangan tersebut antara lain adalah sifat variabel yang diukur, jenis alat ukur, jumlah subjek yang diukur, serta hasil-hasil pengukuran yang diharapkan sesuai dengan tujuan penelitian.

C. FAKTOR-FAKTOR YANG DAPAT MEMENGARUHI RELIABILITAS

1. Panjang Tes

Semakin panjang suatu tes, semakin banyak jumlah butir materi pembelajaran yang bisa diukur. Ini menunjukkan dua kemungkinan. Pertama, tes semakin mendekati kebenaran. Kedua, dalam mengikuti tes, semakin kecil siswa menebak. Dengan kedua alasan tersebut, semakin tinggi koefisien reliabilitas.

(26)

2. Penyebaran Skor

Koefisien korelasi dipengaruhi oleh bentuk sebaran skor dalam kelompok siswa yang diukur. Semakin tinggi sebaran, semakin tinggi estimasi koefisien reliabilitas (Gronlund, 1990: 94).

3. Petunjuk Penyekoran atau Rubrik yang Kurang Perinci (Multitafsir)

Penilaian tugas atau tes esai dengan pedoman penyekoran yang kurang perinci atau multitafsir menyebabkan keajekan hasil terganggu. Semakin bervariasi penafsiran korektor terhadap pedoman penyekoran, semakin rendah keajekan hasil.

4. Kesulitan Tes

Tes normatif yang terlalu mudah atau terlalu sulit cenderung menghasilkan skor reliabilitas rendah. Fenomena tersebut akan menghasilkan sebaran skor yang cenderung terbatas pada salah satu sisi. Demikian juga jika tes terlalu mudah, skor jawaban akan mengumpul pada sisi atas (misalnya 9 atau 10). Untuk tes yang terlalu sulit, skor jawaban cenderung mengumpul pada ujung sebaliknya (rendah).

D. IMPLEMENTASI RELIABILITAS PADA PENILAIAN HASIL BAHASA INDONESIA

Suatu penilaian dikatakan tepercaya (reliable) jika hasil yang diperoleh pada ujian itu tetap atau stabil, kapan saja, di mana saja, serta siapa pun yang mengujikan dan yang menilainya. Ketepercayaan meliputi bahan ujian dan pemeriksanya. Dengan kata lain, tes dianggap reliabel jika memiliki keajekan hasil pengukuran sewaktu dilaksanakan pada saat yang berbeda dengan kondisi yang relatif sama. Berkaitan dengan reliabilitas tersebut, Gronlund (1980) mengungkapkan bahwa reliabilitas tes mengacu pada suatu pengertian apakah suatu tes dapat mengukur secara konsisten sesuatu yang akan diukur dari waktu ke waktu.

Agar syarat-syarat alat-alat penilaian pembelajaran BI memiliki ketepercayaan, perlu diperhatikan kriteria berikut.

1. Ketepercayaan terhadap Soal Tes

(27)

b. Bertambah banyak segi yang diujikan, bertambah pula nilai ketepercayaannya.

c. Hasil penilaian yang stabil menunjukkan nilai ketepercayaan yang tinggi.

d. Bentuk soal objektif lebih tepercaya sebab (a) segi yang diujikan mencakup tujuan dan bahan yang cukup luas dan (b) ukuran jawaban yang benar dan sudah pasti/tetap tidak akan terjadi jawaban yang meragukan penilai.

e. Motivasi pengikut ujian memengaruhi nilai ketepercayaan suatu ujian.

2. Ketepercayaan Hasil

Soal bentuk objektif mendekati kesempurnaan dalam ketepercayaan sebab penilai hanya mencocokkan dengan kunci jawaban yang tepat, tidak memerlukan pertimbangan. Ada sejumlah cara yang dapat digunakan untuk mengkaji kemungkinan ajek tidaknya suatu tes. Cara dimaksud meliputi a) test-retest, b) menggunakan bentuk soal yang berbeda, c) cara paruh/belah dua, dan d) persamaan rasional.

Di antara sejumlah cara tersebut, tidak ada yang dianggap paling baik. Pendapat yang diajukan ternyata berbeda-beda. Ada yang berpendapat bahwa cara terbaik untuk melihat ajek tidaknya suatu tes adalah melaksanakan

re-test, lalu antara hasil tes awal dan re-test itu dikaji tingkat korelasinya. Cara

seperti itu juga mengundang sejumlah kelemahan, antara lain (1) kondisi dan situasi pelaksanaan tes dalam waktu yang berbeda sulit dikontrol, (2) terdapat banyak variabel yang memengaruhi ketepercayaan hasilnya, dan (3) peserta tes harus mengambil tes dua kali dalam waktu yang relatif singkat (Gronlund, 1980, dalam Harsiati, 2003: 26).

Untuk mengukur reliabilitas ini, dapat diperkirakan dengan cara mengorelasikan skor-skor yang diperoleh seseorang pada waktu yang berbeda dengan kelompok-kelompok pertanyaan yang sepadan. Prosedur ini memerlukan pelaksanaan tes dua kali. Prosedur lainnya dilakukan dengan jalan secara artifisial membagi dua bagian yang sama dengan jalan menetapkan keajekan internal tes tersebut.

Berdasarkan tujuan dan bentuk tes yang digunakan, dapat ditentukan metode penentuan reliabilitas yang dipandang cocok untuk menentukan ajek tidaknya sebuah tes. Metode tes ulang dipandang tidak tepat untuk menentukan reliabilitas kemampuan menulis sebab hampir dapat dipastikan

(28)

bahwa pengaruh ingatan dalam tes menulis sangat kuat. Metode persamaan rasional dapat digunakan untuk menentukan reliabilitas keterampilan menulis sebab pengaruh ingatan dalam tes menulis dapat ditekan dan kemampuan menulis dapat dipandang sebagai kemampuan yang relatif konstan. Metode cara paruh/belah dua jelas tidak dapat dipakai untuk menentukan reliabilitas keterampilan menulis sebab sulit sekali untuk dapat membagi tes menulis menjadi dua bagian yang setara. Metode menggunakan bentuk soal yang berbeda memang dapat digunakan untuk menentukan reliabilitas tes menulis, tetapi ada suatu masalah yang tidak mudah untuk diatasi, yakni menyusun dua perangkat tes menulis yang betul-betul setara (khususnya penentuan topik). Untuk itu, penentuan reliabilitas tes menulis dapat dilakukan dengan cara penyekoran ulang oleh penyekor yang sama. Berdasarkan hasil perbandingan skor dari kedua penyekoran ini (baik oleh dua orang penyekor maupun penyekoran ulang), akan dapat diketahui tingkat reliabilitas tes menulis.

3. Reliabilitas Antarkorektor (Interrater)

Reliabilitas antarkorektor merupakan hal penting dalam penilaian hasil belajar keterampilan berbahasa Indonesia. Keandalan (reliabilitas) alat penilaian menunjuk pada pengertian kemampuan alat itu untuk mengukur secara ajek dan tidak berubah-ubah. Ibarat sebuah timbangan, ia dapat mengukur berat suatu benda secara bebas siapa pun yang mempergunakannya. Tes dianggap reliabel jika memiliki keajekan hasil pengukuran sewaktu dilaksanakan pada saat yang berbeda dengan kondisi yang relatif sama.

Dalam penilaian keterampilan berbahasa, pengukuran reliabilitas ini dapat diperkirakan dengan cara mengorelasikan skor-skor yang diperoleh seseorang pada waktu-waktu yang berbeda/dengan korektor yang berbeda-beda. Prosedur ini dilakukan dengan mengorelasikan hasil penyekoran korektor pertama dan korektor. Upaya untuk menjaga reliabilitas antarkorektor, pada penilaian berbahasa dapat dilakukan dengan cara membuat rubrik yang jelas dan perinci. Rubrik yang jelas dan perinci akan memandu korektor menghasilkan skor yang sama sehingga diharapkan dapat menghasilkan penilaian yang sama.

Prosedur yang perlu ditempuh untuk menghasilkan pedoman penyekoran yang reliabel diuraikan melalui langkah-langkah dalam menyusun rubrik untuk menjaga reliabilitas antarkorektor.

(29)

a. Langkah pertama: mencermati karakteristik kompetensi dasar dan indikator. Langkah awal menyusun rubrik adalah mencermati konstruk (bangunan pengertian) suatu kompetensi dasar. Karakteristik suatu kompetensi akan menentukan jabaran indikator. Indikator bisa dijabarkan lagi menjadi deskriptor agar mudah diamati.

b. Langkah kedua: menentukan deskriptor yang lebih teramati dari kompetensi.

c. Langkah ketiga adalah menyusun perilaku yang teramati (deskriptor) dari suatu kompetensi. Bisa juga menyusun deskriptor dengan mencermati kriteria pada indikator. Kriteria pada indikator dikonkretkan menjadi deskriptor pada rubrik.

d. Langkah keempat: menentukan skor maksimal untuk semua munculnya deskriptor.

e. Setelah semua indikator pencapaian dijabarkan menjadi deskriptor, ditentukan skor maksimal tiap-tiap indikator. Penentuan skor maksimal ditentukan oleh tingkat kepentingan suatu indikator.

f. Langkah kelima: membuat gradasi (skor atau skala) pada tiap deskriptor. Setelah ditentukan skor maksimal untuk tiap deskriptor, perlu dijabarkan gradasi skor dari tiap-tiap indikator.

g. Langkah keenam: menata aspek, deskriptor, skor maksimal, dan gradasi skor pada sebuah tabel yang mudah dibaca dan digunakan.

Contoh implementasi konsep reliabilitas dalam penilaian hasil belajar bahasa Indonesia sebagai berikut.

Kompetensi yang akan diukur: menulis iklan sesuai konteks.

Indikator: siswa mampu membuat iklan secara individual dari konteks yang ditentukan.

Dalam menilai hasil karya siswa, digunakan dua pedoman berikut. Manakah yang memiliki reliabilitas tinggi ditinjau dari reliabilitas antar korektornya?

(30)

Rubrik Menulis Iklan Berilah tanda cek sesuai dengan hasil pengamatanmu!

1. Memilih isi iklan yang sesuai dengan tujuan iklan untuk melakukan persuasi  Iklan mengandung penjelasan barang/jasa yang diiklankan secara jelas, tetapi ringkas

 Iklan berisi ajakan/alasan untuk menggunakan apa yang diiklankan (kelebihan barang/jasa)

2. Memilih isi dan bentuk iklan yang autentik dan kreatif

 Isi iklan unik dan menarik sesuai dengan

produk/barang diiklankan (tidak meniru yang telah ada)

 Bentuk pujian, ajakan, dan cara meyakinkan kreatif 3. Memilih diksi dan

struktur  Memilih penggunaan kata yang dapat menarik perhatian (perulangan bunyi, perulangan kata, berkaitan dengan nama/identitas barang/jasa yang diiklankan)

 Dapat memilih struktur kalimat yang padat dan singkat

 Memilih kata dan struktur kalimat yang sesuai dengan sasaran iklan

Satu jawaban ya dapat skor 5 dan jawaban tidak dapat skor 1. Skor maksimal (5x7 = 35) Contoh Rubrik 2 No Subkompetensi 1 2 3 4 5 1. Pilihan kata 2. Unsur iklan 3. Isi iklan

(31)

Dari contoh kedua rubrik atau pedoman penyekoran di atas, contoh satu lebih memberi hasil yang sama jika dikoreksi orang yang berbeda. Rubrik contoh pertama deskriptornya jelas dan penyekorannya jelas. Dengan demikian, siapa saja yang memberi skor hasil penulisan iklan akan menghasilkan skor relatif sama. Pada contoh rubrik contoh kedua, deskriptor tidak jelas karena hanya mencantumkan aspeknya. Penyekorannya juga kurang jelas. Misalnya, akan diberi skor 5 untuk pilihan kata jika hasil siswa seperti apa dan dapat skor 4, 3, 2, atau 1 jika memiliki ciri seperti apa. Semua gradasi tersebut kurang jelas kriterianya. Dengan demikian, tiap korektor akan mempunyai persepsi sendiri-sendiri. Hal ini berpotensi pada hasil penilaian yang memiliki reliabilitas rendah. Reliabilitas yang rendah pada antarkorektor juga dapat dilakukan dengan cara memberikan batas toleransi perbedaan antarkorektor. Jika hasil melebihi batas maksimal perbedaan, hasil harus dikoreksi ulang.

1) Prosedur apa saja yang harus ditempuh untuk menguji reliabilitas tes yang tinggi?

2) Apa yang harus ditempuh agar suatu penilaian hasil belajar memiliki reliabilitas korektor yang tinggi?

3) Sebutkan langkah menyusun pedoman penyekoran agar hasil antarkorektor relatif sama dalam penilaian hasil tes produk atau unjuk kerja!

Petunjuk Jawaban Latihan

Untuk mengukur keberhasilan Anda dalam menjawab soal pelatihan di atas, coba Anda cocokkan dengan rambu-rambu jawaban berikut ini.

1) Prosedur yang harus ditempuh untuk menguji reliabilitas mencakup cara-cara berikut.

LATIHAN

Untuk memperdalam pemahaman Anda mengenai materi di atas, kerjakanlah latihan berikut!

(32)

a. Ulang uji (test retest)

Soal diberikan kepada pengikut ujian yang sama untuk kedua kalinya selang beberapa lama. Jika hasil ujian I dengan ujian II sama atau hampir sama, itu berarti butir soal itu tepercaya.

b. Menggunakan bentuk soal yang berbeda

Bentuk soal berbeda, tetapi panjang soal, jumlah soal, bahan yang diujikan, taraf kesukaran, lama waktu, dan format/perwajahan soal relatif sama. Soal yang dijawab tepat oleh siswa pada dua kali pelaksanaan ujian itulah soal yang dianggap memiliki ketepercayaan.

c. Cara paruh (split half)

Digunakan soal yang sejajar dan senilai. Pengikut dibagi dua kelompok secara acak (random). Hasil dari kedua kelompok itu dibandingkan untuk mengetahui ketepercayaan soal.

d. Persamaan rasional (rational equivalence)

Pemusatan perhatian pada hubungan antarsoal (inter-item

consistency) yang ditentukan dengan jumlah pengikut ujian yang

menjawab benar dan yang menjawab salah.

2) Agar hasil korektor konsisten untuk tes esai, produk, dan kinerja, diperlukan rubrik yang perinci. Dengan rubrik yang perinci, dapat dicapai reliabilitas antarkorektor. Dengan rubrik yang jelas dan perinci, reliabilitas antarkorektor tinggi.

3) Langkah menyusun rubrik untuk menjaga reliabilitas antarkorektor a. Langkah pertama: mencermati karakteristik kompetensi dasar dan

indikator. Langkah awal menyusun rubrik adalah mencermati konstruk (bangunan pengertian) suatu kompetensi dasar. Karakteristik suatu kompetensi akan menentukan jabaran indikator. Indikator bisa dijabarkan lagi menjadi deskriptor agar mudah diamati.

b. Langkah kedua: menentukan deskriptor yang lebih teramati dari kompetensi.

c. Langkah ketiga adalah menyusun perilaku yang teramati (deskriptor) dari suatu kompetensi. Bisa juga menyusun deskriptor dengan mencermati kriteria pada indikator. Kriteria pada indikator dikonkretkan menjadi deskriptor pada rubrik.

d. Langkah keempat: menentukan skor maksimal untuk semua munculnya deskriptor. Setelah semua indikator pencapaian

(33)

dijabarkan menjadi deskriptor, ditentukan skor maksimal tiap-tiap indikator. Penentuan skor maksimal ditentukan oleh tingkat kepentingan suatu indikator.

e. Langkah kelima: membuat gradasi (skor atau skala) pada tiap deskriptor. Setelah ditentukan skor maksimal untuk tiap deskriptor, perlu dijabarkan gradasi skor dari tiap-tiap indikator.

f. Langkah keenam: menata aspek, deskriptor, skor maksimal, dan gradasi skor pada sebuah tabel yang mudah dibaca dan digunakan. Untuk membantu Anda dalam mempertajam pemahaman Anda terhadap uraian materi modul ini, sebaiknya Anda membaca rangkuman materi yang tersaji dalam uraian berikut ini.

Sifat reliabel (andal) dari sebuah alat ukur berkenaan dengan kemampuan alat ukur tersebut memberikan hasil yang konsisten. Istilah reliabilitas sering disamakan dengan consistency, stability, atau

dependability. Pada prinsipnya, reliabilitas menunjukkan sejauh mana

pengukuran itu dapat memberikan hasil yang relatif tidak berbeda apabila dilakukan pengukuran kembali terhadap subjek yang sama. Sebagaimana digunakan dalam psikometri, istilah reliabilitas selalu berarti konsistensi. Menguji reliabilitas berarti menguji konsistensi skor yang diperoleh dari pengukuran yang berulang-ulang menggunakan tes dan responden yang sama.

Hal yang memengaruhi reliabilitas adalah panjang tes, penyebaran skor, rubrik, dan kesulitan tes. Semakin panjang suatu tes, semakin banyak jumlah butir materi pembelajaran yang bisa diukur. Ini menunjukkan dua kemungkinan. Pertama, tes semakin mendekati kebenaran. Kedua, dalam mengikuti tes, semakin kecil siswa menebak. Dengan kedua alasan tersebut, semakin tinggi koefisien reliabilitas. Semakin tinggi sebaran, semakin tinggi estimasi koefisien reliabilitas. Penilaian tugas atau tes esai dengan pedoman penyekoran yang kurang perinci atau multitafsir menyebabkan keajekan hasil terganggu. Semakin bervariasi penafsiran korektor terhadap pedoman penyekoran, semakin rendah keajekan hasil. Tes normatif yang terlalu mudah atau terlalu sulit cenderung menghasilkan skor reliabilitas rendah.

Prosedur yang harus ditempuh untuk menguji reliabilitas mencakup (ulang uji (test-retest), bentuk soal setara, persamaan rasional, dan cara

(34)

paruh. Dengan ulang uji, soal diberikan kepada pengikut ujian yang sama untuk kedua kalinya selang beberapa lama. Jika hasil ujian I dengan ujian II sama atau hampir sama, itu berarti butir soal itu tepercaya. Pada teknik soal setara, digunakan bentuk soal yang berbeda/paralel. Bentuk soal berbeda, tetapi panjang soal, jumlah soal, bahan yang diujikan, taraf kesukaran, lama waktu, dan format/perwajahan soal relatif sama. Soal yang dijawab tepat oleh siswa pada dua kali pelaksanaan ujian itulah soal yang dianggap memiliki ketepercayaan. Dengan cara paruh (split half), digunakan soal yang

sejajar dan senilai. Pengikut dibagi dua kelompok secara acak (random).

Hasil dari kedua kelompok itu dibandingkan untuk mengetahui ketepercayaan soal. Dengan cara persamaan rasional (rational

equivalence), pemusatan perhatian pada hubungan antarsoal (inter-item consistency) ditentukan dengan jumlah pengikut ujian yang menjawab

benar dan yang menjawab salah. Agar hasil korektor konsisten untuk tes esai, produk, dan kinerja, diperlukan rubrik yang perinci. Dengan rubrik yang perinci, dapat dicapai reliabilitas antarkorektor. Dengan rubrik yang jelas dan perinci, reliabilitas antarkorektor tinggi.

1) Kriteria suatu tes harus merupakan ukuran yang ajek bagi atribut dari waktu ke waktu dan dari satu situasi ke situasi yang lain. Hal ini berarti tes tersebut bersifat ....

A. reliabel B. relevansi C. bebas D. bias

2) Yang harus dilakukan jika menemukan hasil reliabilitas yang rendah adalah ....

A. menambah tingkat kesulitan soal B. menambah jumlah butir soal C. mengurangi jumlah soal

D. mengurangi tingkat kesulitan soal

3) Tes objektif digunakan dengan alasan utama .... A. reliabilitas tinggi

B. validitas tinggi

TES FO R MATIF 2

(35)

C. tingkat kesulitan tinggi D. daya beda tinggi

4) Berikut ini pernyataan yang benar tentang konsep reliabilitas, yaitu .... A. sejauh mana pengukuran itu dapat memberikan hasil yang relatif

berbeda apabila dilakukan pengukuran kembali terhadap subjek yang sama

B. sejauh mana pengukuran itu dapat memberikan hasil yang relatif sama apabila dilakukan satu kali pengukuran terhadap subjek yang sama

C. sejauh mana pengukuran itu dapat memberikan hasil yang relatif sama apabila dilakukan beberapa kali pengukuran lagi terhadap subjek yang sama

D. sejauh mana pengukuran itu dapat memberikan hasil yang relatif sama apabila dilakukan pengukuran terhadap subjek yang berbeda 5) Cara yang dapat digunakan untuk menguji reliabilitas antarkorektor

adalah ....

A. mengorelasikan skor yang dihasilkan beberapa korektor dari sejumlah pengamatan performansi/karya siswa yang sama

B. mengorelasikan skor dari beberapa siswa yang performansinya/ karyanya dikoreksi seorang korektor

C. mengorelasikan skor pengamatan sejumlah siswa dari dua kali waktu pengukuran

D. mengorelasikan skor pengamatan sejumlah siswa dari dua kali waktu pengukuran

6) Soal diberikan kepada pengikut ujian yang sama untuk kedua kalinya selang beberapa lama. Jika hasil ujian I dengan ujian II sama atau hampir sama, itu berarti butir soal itu tepercaya. Teknik yang digunakan untuk menguji reliabilitas pada contoh tersebut adalah ....

A. uji soal setara B. ulang uji (test-retest) C. cara paruh (split half) D. uji interrater

7) Pak Dwi menguji reliabilitas dengan menggunakan bentuk soal berbeda, tetapi panjang soal, jumlah soal, bahan yang diujikan, taraf kesukaran, lama waktu, dan format/perwajahan soal relatif sama. Soal yang dijawab tepat oleh siswa pada dua kali pelaksanaan ujian itulah soal yang dianggap memiliki ketepercayaan. Teknik yang digunakan untuk menguji reliabilitas pada contoh tersebut adalah ....

(36)

A. uji soal setara B. ulang uji (test-retest) C. cara paruh (split half) D. uji interrater

8) Agar hasil koreksi menunjukkan reliabilitas interrater yang tinggi, perlu ditempuh cara ....

A. menguji reliabilitas dengan jumlah siswa yang sama dan penilai yang sama

B. menggunakan pengujian reliabilitas yang diperoleh dari nilai yang konsisten

C. menggunakan rubrik dengan deskriptor yang jelas dan teramati D. menguji berulang-ulang dengan menggunakan tes dan responden

yang sama

9) Agar butir soal yang memiliki reliabilitas tinggi juga memiliki validitas yang tinggi, perancang tes perlu melakukan analisis reliabilitas .... A. dengan teknik butir soal setara

B. terhadap butir-butir yang sudah valid saja C. dengan prosedur tes ulang

D. sebelum analisis validitas

10) Penilaian tugas atau tes esai dengan pedoman penyekoran yang multitafsir menyebabkan keajekan hasil terganggu. Hal ini disebabkan oleh ....

A. semakin bervariasi penafsiran korektor terhadap pedoman penyekoran, semakin rendah keajekan hasil dari beberapa korektor B. penilaian tugas atau tes esai dengan pedoman penyekoran sangat

rumit dilakukan

C. semakin multitafsir, para penilai lebih fleksibel memberikan skor terhadap hasil karya siswa

D. penafsiran korektor terhadap pedoman penyekoran menjadi sulit sehingga mengganggu pelaksanaan

Cocokkanlah jawaban Anda dengan Kunci Jawaban Tes Formatif 2 yang terdapat di bagian akhir modul ini. Hitunglah jawaban yang benar. Kemudian, gunakan rumus berikut untuk mengetahui tingkat penguasaan Anda terhadap materi Kegiatan Belajar 2.

(37)

Arti tingkat penguasaan: 90 - 100% = baik sekali

80 - 89% = baik

70 - 79% = cukup < 70% = kurang

Apabila mencapai tingkat penguasaan 80% atau lebih, Anda dapat meneruskan dengan Kegiatan Belajar 3. Bagus! Jika masih di bawah 80%, Anda harus mengulangi materi Kegiatan Belajar 2, terutama bagian yang belum dikuasai.

Tingkat penguasaan = Jumlah Jawaban yang Benar 100% Jumlah Soal