• Tidak ada hasil yang ditemukan

Peningkatan Akurasi Tes Daring Sebagai Alat Ukur Hasil Belajar di Masa Pandemi Covid-19

Dalam dokumen New Normal (Halaman 99-117)

Bulkani7 Pengantar

Pandemi Covid-19 membawa banyak perubahan tatanan sosial, termasuk di Indonesia. Dalam bidang pendidikan, keadaan pandemi Covid-19 memaksa penyesuaian sistem pendidikan, baik dari segi perencanaan, proses maupun evaluasi pendidikan. Proses pembelajaran yang semula melalui tatap muka secara langsung, mau tidak mau harus disesuaikan menjadi pembelajaran daring. Perubahan pembelajaran ke sistem daring membawa banyak konsekuensi, menimbulkan beberapa pertanyaan, antara lain (1). Seberapa siap pendidik dan peserta didik melaksanakan proses sistem pembelajaran daring? (2). Bagaimana kualitas sistem pembelajaran daring jika dibandingkan dengan sistem pembelajaran luring? (3). Bagaimana mengontrol kualitas interaksi pendidik-peserta didik dalam pembelajaran daring? (4). Bagaimana kesiapan infrastruktur pendukung pelaksanaan sistem pembelajaran daring? (5). Bagaimana ketersediaan sinyal internet di berbagai daerah?

(6). Bagaimana menilai hasil belajar peserta didik dalam sistem pembelajaran daring? Beberapa pertanyaan tersebut merupakan pertanyaan mendasar yang sering diperdebatkan para pendidik.

Salah satu unsur penting dalam pelaksanaan pembelajaran adalah evaluasi hasil belajar. Dalam pengertian yang sempit, Evaluasi hasil belajar dapat diartikan sebagai upaya menilai perubahan perilaku sebagai capaian dari proses pembelajaran [1], dikaatakan juga makna evaluasi sebagai upaya untuk mengambil keputusan dari suatu proses penilaian [2]. Dalam konteks pembelajaran, maka dari kegiatan evaluasi, kita dapat mengetahui ketercapaian tujuan pembelajaran. Melakukan evaluasi pada dasarnya adalah membandingkan antara tujuan program dengan hasil yang dicapai menggunakan teknik dan alat tertentu.

Evaluasi tersebut melalui dua tahapan, yakni mengukur dan menilai.

Mengukur memiliki makna sebagai kegiatan membandingkan antara capaian obyek pengukuran dengan suatu standar atau patokan tertentu.

Sedangkan menilai bermakna melakukan interpretasi atau mengolah hasil pengukuran. Dari hasil pengukuran diperoleh skor hasil

7 Dr. Bulkani, M.Pd, Dosen Universitas Muhammadiyah Palangkaraya

pengukuran, sedangkan dari penilaian diperoleh nilai. Dengan demikian, proses penilaian juga dapat dimaknai sebagai kegiatan merubah skor menjadi nilai.

Teknik dan instrumen yang digunakan untuk mengukur hasil belajar terdiri dari dua jenis. Secara umum dibedakan menjadi teknik tes dan non tes. Penggunaan masing-masing teknik ini disesuaikan dengan ranah hasil belajar yang akan diukur. Berdasarkan taksonomi Bloom, hasil belajar dibedakan menjadi hasil belajar ranah kognitif, afektif, dan psikomotor. Perbedaan ranah hasil belajar ini menyebabkan perbadaan teknik dan instrumen yang digunakan. Untuk mengukur hasil belajar ranah kognitif, umumnya digunakan teknik tes, dengan berbagai bentuk atau jenis tes. Hasil belajar ranah afektif diukur menggunakan teknik non tes seperti kuisioner, wawancara, observasi, dan semacamnya. Sedang-kan untuk mengukur hasil belajar ranah psikomotor, digunaSedang-kan teknik tes kinerja atau tes perbuatan. Dalam masa pandemi Covid-19, berbagai teknik pengukuran hasil belajar tersebut cenderung digunakan secara daring.

Tes daring sebenarnya mulai dikembangkan sejak tahun 1980-an, yakni dengan dikembangkannya tes psikologi berbasis internet, yang kemudian berkembang menjadi testing bidang-bidang lainnya [1]. Tes daring ini kemudian berkembang dalam area pengukuran psikologis yang lebih luas, antara lain dalam bidang pengukuran hasil belajar.

Pengukuran hasil belajar merupakan salah satu upaya untuk meng-evaluasi proses pembelajaran daring, selain dimensi-dimensi yang lain.

Evaluasi dikatakan juga sebagai sistem pembelajaran daring semestinya tidak hanya memuat dimensi proses dan hasil belajar, tetapi juga menilai dimensi lingkungan belajar peserta didik, termasuk pada saat mengerjakan soal tes [4].

Dalam pengukuran hasil belajar, umumnya para pendidik menggunakan instrumen berupa tes yang bersifat daring juga. Dari respon peserta didik terhadap tes itu, pendidik memperoleh skor yang kemudian diolah menjadi nilai. Nilai ini melambangkan capaian hasil belajar peserta didik selama pembelajaran berlangsung. Berbeda dengan model evaluasi luring yang umumnya dipakai saat belum terjadi pandemi, maka model evaluasi daring menyebabkan menurunnya tingkat keyakinan terhadap hasil pengukuran. Penyebabnya antara lain adalah lemahnya pengawasan. Dalam hal ini pengukur (pendidik) tidak mendapat keyakinan kuat bahwa obyek ukur (peserta didik) mengerjakan perintah instrumen secara mandiri tanpa bantuan orang

lain dalam batas waktu yang telah ditentukan. Padahal, capaian hasil belajar seseorang dilambangkan dengan menyelesaikan tugas belajarnya dalam batas waktu yang telah ditentukan. Di sisi lain, penggunaan instrumen pengukuran secara daring tidak dapat dihindari sebagai dampak dari pandemi Covid-19.

Tes hasil belajar yang digunakan secara daring memiliki beberapa kelebihan dan kekurangan. Kelebihan dari penggunaan tes daring adalah daya jangkaunya yang luas dengan standar yang sama untuk setiap peserta tes. Tes ini mampu melakukan pengukuran pada populasi yang luas pada saat bersamaan. Pembelajaran dan tes daring bisa menekan biaya sehingga memungkinkan sistem pendidikan global [5]. Tes daring Tes daring juga mampu meminimalkan kesalahan administrasi pelak-sanaan tes dan cenderung tidak terpengaruh oleh karakteristik peserta tes di luar substansi yang diukur, seperti keindahan tulisan tangan.

Sedangkan kelemahannya antara lain kesulitan mengontrol kondisi lingkungan tes dan pengadministrasian hardware dan software yang menyebabkan waktu terbuang percuma, dan penggunaan layar kom-puter yang mungkin membuat mata cepat lelah [2]. Kesulitan mengontrol lingkungan tes menyebabkan menurunnya keyakinan pengukur ter-hadap hasil pengukuran.

Peningkatan keyakinan terhadap hasil pengukuran secara daring dapat dilakukan melalui beberapa cara. Melakukan pengukuran beberapa kali adalah salah satu solusi untuk mengejar tingkat reliabilitas hasil pengukuran. Dengan melihat konsistensi hasil dari beberapa kali pengukuran, dapat diperoleh gambaran lebih komprehensif tentang kemampuan sebenarnya dari peserta didik. Selain itu, variasi jenis tes yang digunakan, dapat membantu memberikan gambaran lebih jelas tentang hasil belajar yang dicapai peserta didik. Cara lain yang dapat ditempuh oleh pengukur adalah membuat instrumen baku dengan tingkat kehandalan yang tinggi. Instrumen yang memiliki tingkat validitas dan reliabilitas yang tinggi misalnya, cenderung mampu memberikan gambaran sebenarnya dari capaian hasil belajar peserta didik.

Masalah utama dalam dunia pengukuran hasil belajar adalah akurasi hasil pengukuran tersebut. Pertanyaan mendasar yang selalu timbul pada saat kita memperoleh suatu skor hasil hasil pengukuran adalah, seberapa akurat skor hasil pengukuran yang kita peroleh tersebut mampu menggambarkan kemampuan sebenarnya dari peserta didik?

Apakah skor hasil pengukuran yang kita peroleh, sudah

meng-gambarkan kemampuan sebenarnya dari peserta didik? Apakah terjadi pembiasan pada skor hasil pengukuran itu? Apakah skor hasil pengukuran tersebut masih mengandung unsur kekeliruan (error)?

Bagaimana cara meningkatkan akurasi hasil pengukuran tersebut?

Dalam konteks tes secara daring, pertanyaan yang timbul adalah, bagaimana cara pengukur meningkatkan keyakinan bahwa tes yang diberikan tersebut mampu memberikan gambaran yang utuh dan obyektif tentang hasil belajar yang dicapai peserta didik? Pertanyaan-pertanyaan itulah yang akan dijawab dalam tulisan ini.

Pembahasan

Pengukuran hasil belajar sebagai pengukuran tidak langsung

Pengukuran hasil belajar termasuk ke dalam pengukuran tidak langsung. Artinya, kita sebagai pengukur tidak dapat mengukur obyek ukur secara langsung, karena yang dapat kita ukur hanya gejalanya saja.

Pada pengukuran tidak langsung, pengukur hanya dapat mengukur gejala atau respon dari obyek yang diukur, kemudian memberi skor pada respon tersebut. Dalam hal ini, pengukur tidak memperoleh keputusan yang eksak tentang hasil pengukurannya, karena skor yang didapat hanya berdasarkan gejala yang timbul setelah diberi stimulus tertentu. Berbeda dengan pengukuran langsung yang mana pengukur dapat mengukur ukuran-ukuran yang diinginkan dari obyek ukur secara langsung. Misalnya pada saat kita mengukur panjang sebuah meja menggunakan meteran, maka kita melakukan pengukuran langsung karena ukuran-ukuran yang ingin kita ukur, dapat langsung dilihat dari satuan-satuan pada meteran yang kita gunakan.

Skor hasil pengukuran tidak langsung masih mengandung ketidakpastian atau kesalahan. Skor hasil pengukuran pendidikan masih bersifat probalistik karena mengandung unsur kekeliruan [7].

Dengan kata lain, skor hasil pengukuran pendidikan, termasuk skor tes hasil belajar, terdiri dari skor sebenarnya (True score) dan skor kekeliruan (Error), yang dapat dilambangkan dalam persamaan berikut :

X = T + Ɛ

X = skor hasil pengukuran T = True atau skor sebenarnya Ɛ = Error

Dengan demikian, jika seorang peserta didik memperoleh skor 70 dari hasil sebuah tes hasil belajar, maka skor 70 tersebut belum tentu

menggambarkan kemampuan sebenarnya dari peserta didik. Banyak kombinasi skor T dan Ɛ yang mungkin terjadi, misalnya :

70 = 60 + 10………..(1) 70 = 90 + (-20) ……….(2).

Pada persamaan (1) di atas, kemampuan sebenarnya dari peserta didik adalah 60, tetapi karena terdapat skor kekeliruan sebesar 10 maka skor yang diperoleh peserta didik atau skor hasil pengamatannya adalah 70.

Kemungkinan berbeda terjadi pada persamaan (2), yang mana kemampuan sebenarnya dari peserta didik adalah 90, tetapi karena terdapat skor kekeliruan sebesar -20 maka skor yang diperoleh peserta didik atau skor hasil pengamatannya adalah 70. Ini berarti, pada sebuah skor yang kita peroleh dari tes hasil belajar misalnya, terdapat tak terhingga banyaknya kemungkinan pasangan skor T dan skor Ɛ.

Dalam pengukuran hasil belajar, tantangan utama pengukur adalah meminimalkan skor kekeliruan atau error. Jika diusahakan skor kekeliruan atau error mendekati nol (Ɛ≈0), maka persamaan X = T + Ɛ akan mendekati X = T + 0, sehingga skor hasil pengamatan akan hampir sama dengan angka true skor. Dengan kata lain, jika dapat diusahakan Ɛ≈0, maka akan terjadi skor hasil amatan mendekati true skor, atau X≈T.

Artinya, dengan mengusahakan skor kekeliruan yang sekecil mungkin, maka skor hasil pengamatan yang kita peroleh akan mampu menggambarkan kemampuan sebenarnya dari peserta didik.

Masalahnya adalah, skor X adalah hasil pengamatan, sehingga dapat kita amati skornya. Sedangkan skor T dan Ɛ tidak dapat kita amati, tetapi secara teoretis dapat dikendalikan.

Pada pengukuran hasil belajar model daring, kita bahkan lebih sulit mengendalikan kekeliruan atau error (Ɛ) ini. Unsur Ɛ sebagai bagian dari skor hasil pengamatan X, cenderung meningkat karena tidak adanya pengawasan. Bisa saja adanya campur tangan pihak lain yang membantu pengerjaan jawaban peserta didik, sehingga menyebabkan nilai Ɛ semakin besar sehingga skor hasil amatan semakin jauh dari kemampuan sebenarnya dari peserta didik. Skor hasil amatan X cenderung membias dari skor true (T), karena banyaknya faktor yang mengotori hasil pengukuran.

Salah satu cara memperkecil kemungkinan terjadinya kekeliruan dalam pengukuran hasil belajar secara daring adalah mengupayakan instrumen yang handal dan memenuhi standar, serta berusaha melakukan proses pengukurannya secara benar. Beberapa hal itulah yang akan dibahas dalam bagian berikut ini.

Menggunakan tes lisan secara daring

Salah satu kelemahan tes hasil belajar model daring, khususnya jenis tes tertulis, adalah lemahnya pengawasan sehingga pengukur tidak memiliki keyakinan kuat bahwa tes itu dikerjakan sendiri oleh peserta didik. Tes tertulis yang sifatnya massal atau dikerjakan secara bersamaan oleh banyak peserta didik, menyebabkan lemahnya pengawasan. Kelemahan ini dapat diatasi dengan menggunakan tes lisan secara daring.

Tes lisan adalah tes yang perintahnya diberikan secara lisan dan dijawab juga secara lisan oleh peserta didik, mirip dengan wawancara.

Perbedaan mendasar antara tes lisan dengan wawancara adalah sama dengan perbedaan antara tes dengan non tes. Meskipun menggunakan interaksi secara lisan, tes lisan berbeda dengan wawancara karena tes lisan digunakan unuk mengukur aspek-aspek hasil belajar kognitif, sedangkan wawancara digunakan untuk mengukur aspek-aspek afektif.

Ditinjau dari pola responnya, jawaban dari suatu tes mengandung nilai probabilitas benar atau salah, sedangkan jawaban wawancara selalu bernilai benar. Sering kita mendengar kekeliruan dalam penggunaan istilah tes wawancara, padahal wawancara bukanlah bagian dari tes.

Dalam konteks pelaksanaan tes secara daring, tes lisan dapat diberikan secara perorangan oleh pengukur ke peserta didik secara face to face, atau dapat pula pertanyaan diberikan kepada semua peserta tes secara acak seperti kompetisi. Jika diberikan secara face to face, maka tes lisan secara daring membutuhkan waktu yang cukup lama agar semua peserta tes dapat diukur kemampuannya. Untuk panjang tes atau jumlah butir pertanyaan yang cukup banyak karena luasnya capaian hasil belajar yang ingin diukur, maka model ini kurang memungkinkan digunakan secara daring. Alternatif lain, pengukur menggunakan model tes lisan yang kompetitif dimana peserta tes diberikan pertanyaan secara lisan, kemudian dalam waktu yang dibatasi, peserta tes saling mendahului dan berlomba dalam memberikan jawaban. Model kedua ini relatif tidak memakan waktu yang banyak, akan tetapi azas keadilan dan kesempatan dapat terkurangi karena berbagai faktor seperti kekuatan sinyal internet yang berbeda-beda.

Kelebihan tes lisan yang diberikan secara daring antara lain adalah respon atau jawaban peserta tes terhadap pertanyaan-pertanyaan dapat langsung diperoleh untuk diberikan skor. Pola stumulus-respon yang berlangsung lebih cepat, juga secara face to face, dapat meningkatkan keyakinan pengukur tentang akurasi hasil pengukuran.

Kelebihan lain adalah bahwa tes ini bisa diberikan benar-benar secara daring tanpa adanya interaksi fisik antara pengukur dan peserta tes. Di sisi lain, model tes ini juga memiliki beberapa kelemahan, antara lain bahwa tes ini hanya cocok digunakan untuk mengukur capaian hasil belajar yang bersifat ingatan atau pemahaman. Untuk butir-butir pertanyaan yang membutuhkan jawaban analitik dan capaian hasil belajar kognitif yang lebih rumit, maka tes lisan kurang cocok untuk digunakan, karena membutuhkan waktu untuk pengerjaannya maupun untuk menyampaikan jawabannya. Contohnya adalah soal-soal yang jawabannya membutuhkan perhitungan.

Dalam penggunaannya, tes lisan secara daring, harus memper-hatikan aspek-aspek kesiapan psikologis peserta tes. Tidak semua peserta tes siap secara psikologis jika dihadapkan pada pertanyaan-pertanyaan lisan dari pengukur atau penguji, apalagi dengan waktu yang dibatasi. Kadangkala jawaban yang diberikan terburu-buru karena merasa dibatasi waktu dan berkompetisi dengan kawan-kawannya yang lain. Jika pertanyaan lisan itu membuat rasa gugup, maka hasil pengukurannya akan mengalami pembiasan. Selain itu, tidak semua peserta tes mampu mengutarakan kalimat yang baik dalam berkomunikasi secara lisan. Kekurangmampuan berkomunikasi dan menyusun kalimat dengan benar, dapat menyebabkan pembiasan hasil pengukuran. Beberapa kelemahan itu dapat menyebabkan inkonsistensi hasil pengukuran, parameter pengotor yang mestinya dihindari dalam pengukuran hasil belajar.

Agar tes lisan yang diberikan secara daring dapat berfungsi dengan baik sebagai alat ukur hasil belajar, maka pengukur harus menempuh beberapa cara, antara lain berupaya menciptakan suasana pengukuran yang menyenangkan, santai, dan tidak intimidatif. Selain itu, cara pemberian tes lisan yang berulang-ulang, dapat membantu peserta tes menjadi terbiasa sehingga tidak menciptakan interaksi yang menegangkan. Tes lisan yang diberikan secara berulang-ulang juga membantu pengukur melihat tingkat konsistensi hasil pengukuran.

Kecenderungan konsistensi itu menggambarkan tingkat akurasi instrumen maupun proses pengukuran.

Menggunakan tes parsial berbatas waktu

Proses tes harus berbatas waktu. Batas waktu dimaksudkan untuk mempermudah pengawasan sehingga mengurangi pembiasan.

Hal ini sesuai dengan definisi dari hasil belajar, yakni kemampuan seorang peserta didik menyelesaikan tugas belajarnya dalam satuan

waktu tertentu. Pembatasan waktu tes juga memperkecil peluang peserta tes bekerjasama dengan orang lain. Meskipun demikian, batas waktu tersebut harus memperhatikan pula karakteristik peserta tes, karakteristik butir tes, kedalaman materi yang diukur, serta jenis tes yang digunakan. Untuk tes yang bertujuan mengukur kemampuan ingatan dan pemahaman misalnya, waktu yang dibutuhkan relatif lebih sedikit dibandingkan dengan waktu yang dibutuhkan untuk mengerjakan soal tes berbentuk uraian. Tes berbentuk pilihan ganda relatif membutuhkan waktu lebih sedikit dibandingkan dengan tes uraian dalam hal pengerjaannya. Demikian pula halnya dengan butir-butir tes yang sukar, akan membutuhkan waktu lebih lama dalam pengerjaannya dibanding dengan butir-butir tes yang mudah.

Tes daring secara parsial yang dimaksudkan adalah, tes tersebut diberikan secara bertahap butir per butir, sehingga peserta tes juga menjawabnya dari butir ke butir. Pengukur pada awalnya bisa membacakan petunjuk dan aturan main pelaksanaan tes, lalu membaca-kan atau menyampaimembaca-kan secara daring butir soal satu demi satu. Setelah soal nomor pertama dibacakan atau disampaikan, peserta tes langsung mengerjakan dan menjawab soal tersebut secara daring pula hingga batas waktu yang ditentukan. Demikian seterusnya, butir soal nomor dua segera disampaikan oleh pengukur setelah habisnya batas waktu untuk mengerjakan soal nomor satu. Dengan perkembangan teknologi informasi saat ini, cara peserta tes menjawab pun dapat divariasikan.

Peserta tes dapat menjawab satu persatu soal tes dan mengirimkannya langsung kepada pengukur, misalnya melalui pesan SMS atau WahtApss. Waktu penyampaian jawaban juga tercatat dengan baik dalam sistem tersebut. Cara lainnya adalah, jawaban peserta didik disiapkan dalam format aplikasi di sistem google, misalnya peserta tes langsung menandai pilihan alternatif jawaban pada program bit.ly yang sudah disiapkan pengukur. Model ini lebih memudahkan pengukur untuk memberikan skor secara otomatis.

Model tes daring secara parsial ini memberikan beberapa keunggulan, antara lain bahwa obyektivitas dan keadilan relatif dapat ditingkatkan dibanding menggunakan tes tertulis daring yang konven-sional. Pada tes daring yang konvensional, peserta didik menjawab soal tes yang diberikan dalam bentuk perangkat tes. Artinya, terdapat sekumpulan butir tes yang harus dijawab peserta tes dalam batas waktu tertentu, sehingga peserta tes bisa menjawab secara berurutan, memilih soal yang dianggapnya mudah, atau mengulangi kembali untuk

menjawab butir tes yang pada awalnya terlewatkan. Cara ini memberikan kesempatan kepada peserta tes untuk memperoleh skor lebih besar jika waktunya mencukupi. Padahal, mestinya setiap butir tes mengukur aspek perilaku hasil belajar yang berbeda-beda, sehingga membutuhkan batas waktu yang berbeda pula untuk mengerjakannya.

Hakikatnya, pengukur memberikan jumlah waktu yang lebih banyak kepada peserta tes yang memiliki kemampuan lebih baik, sehingga ada ketidakadilan.

Model tes daring yang digunakan secara parsial butir per butir ini tentu juga punya kelemahan, antara lain bahwa peserta didik dapat tergesa-gesa dalam menjawab setiap butir tes. Peserta tes akan merasa diburu waktu sehingga dirasakannya memiliki kesempatan semakin kecil untuk menjawab benar. Perasaan kurang tenang dan cemas ini dapat menyebabkan pembiasan dalam hasil pengukuran. Kecemasan pada peserta tes cenderung akan menghasilkan skor hasil tes yang under estimate [8}. Selain itu, peserta tes juga dapat mengalami kelelahan, sehingga kemampuannya menurun pada saat mengerjakan soal-soal di bagian akhir tes. Kelemahan yang terakhir ini dapat dikurangi dengan cara mengkombinasikan secara silang butir-butir soal tes yang mengukur kemampuan kognitif pada level tinggi (seperti soal ingatan dan pemahaman) pada dengan butir soal tes yang mengukur kemampuan yang lebih kompleks.

Melakukan tes berulang

Melakukan pengukuran secara berulang-ulang terhadap obyek ukur yang sama, dapat meningkatkan akurasi pengukuran. Pengukuran berulang menggunakan instrumen yang sama secara substantif, akan mendekatkan skor hasil amatan X dengan skor T yang menggambarkan kemampuan sebenarnya dari peserta didik. Hal ini didasari pada asumsi bahwa kemampuan atau penguasaan seseorang terhadap bahan ajar tertentu adalah konstan, sekalipun diukur dengan berbagai alat ukur dan beberapa kali pengukuran. Dengan kata lain, dalam persamaan X = T + Ɛ, ada kecenderungan berlaku Xi = T + Ɛi, sehingga sampai dengan pengukuran yang ke-i sekalipun, skor T tidak akan berubah. Perubahan skor amatan Xi pada akhirnya hanya tergantung dari atau berkorelasi dengan besaran skor kekeliruan Ɛi. Dalam bentuk persamaan, hal itu dapat dinyatakan sebagai berikut :

X1 = T + Ɛ1

X2 = T + Ɛ2

Xi = T + Ɛi

Menurut Naga [3] skor kekeliruan terjadi secara acak, bisa menyebabkan penambahan maupun pengurangan pada skor amatan.

Dengan demikian, untuk jumlah pengulangan tes yang banyaknya tak terhingga (i ∞), maka rata-rata skor kekeliruan Ɛ akan mendekati 0 (ditulis µƐ≈0). Dengan kata lain, untuk jumlah tes yang dilakukan berulang-ulang, maka berlaku µX≈T karena µƐ≈0. Artinya, rata-rata skor amatan X mendekati angka true skor T, jika dilakukan tes yang berulang-ulang. Walaupun pada kenyataannya, adalah tidak mungkin kita memberikan pengulangan tes sebanyak tak terhingga kepada peserta didik, karena berbagai keterbatasan. Namun berbagai keter-batasan yang dimiliki oleh tes sebagai alat ukur hasil belajar, dapat diatasi dengan melakukan pengukuran secara kontinyu dan berulang [9].

Pengulangan pada tes daring untuk mengukur hasil belajar, dapat dilakukan dengan dua cara. Pertama, pengukur menyusun dua atau beberapa perangkat tes dengan jenis dan materi tes yang sama. Dengan cara ini, peserta didik diberikan tes dengan jenis yang sama (misalkan jenis tes pilihan ganda), dengan bunyi pertanyaan yang berbeda, tetapi tetap mengukur penguasaan terhadap materi yang sama. Kedua tes tersebut diusahakan diberikan pada waktu berbeda dengan tenggang waktu yang cukup. Kedua, pengukur menggunakan beberapa jenis dan bentuk tes berbeda, tetapi dengan substansi materi tes yang sama.

Misalkan kita akan mengukur capaian hasil belajar mata kuliah Metodologi Penelitian, maka kita dapat membuat tes berbentuk pilihan ganda, uraian, isian, dan menjodohkan. Hasil dari beberapa tes ini kemudian dicari skor rata-ratanya untuk setiap peserta didik. Rata-rata skor itulah yang mendekati gambaran kemampuan sebenarnya tentang capaian hasil belajar peserta didik. Pada saat ini, terdapat beberapa pilihan software berbasis daring untuk membuat butir-butir soal yang bisa dijawab juga secara daring. Model tes daring menggunakan software ini bahkan lebih memudahkan pengukur dalam memberikan skor secara otomatis.

Cara lain yang dapat dilakukan untuk melakukan pengulangan pengukuran, adalah melakukan tes daring segera setelah suatu pokok bahasan selesai dibahas. Evaluasi ini sering dinamakan juga evaluasi formatif. Evaluasi formatif bertujuan untuk mengukur capaian hasil belajar peserta didik pada bagian-bagian tertentu, yang dapat diguna-kan sebagai umpan balik bagi perubahan strategi pembelajaran [9].

Pendekatan formatif dapat digunakan atas asumsi bahwa bahan ajar

yang diberikan kepada peserta didik merupakan satu kesatuan utuh sekalipun terbagi ke dalam beberapa pokok bahasan. Sehingga, capaian dan penguasaan terhadap masing-masing pokok bahasan juga melambangkan capaian hasil belajar peserta didik terhadap keseluruhan bahan ajar. Dengan pendekatan ini, maka skor hasil belajjar peserta didik dapat diwakili oleh skor rata-rata dari skor yang diperoleh untuk setiap pokok bahasan. Tes formatif bukan hanya dimaksudkan untuk mengukur capaian hasil belajar, tapi juga unuk mengukur kualitas proses pembelajaran, karena hasil tes formatif pada pokok bahasan tertentu dapat digunakan untuk perbaikan proses pembelajaran tahap berikutnya [10].

Untuk meningkatkan keyakinan kita terhadap beberapa hasil tes berulang, kita dapat melakukan pengecekan koefisien korelasi antara hasil suatu tes dengan hasil tes lainnya. Saat ini banyak cara mudah dan praktis untuk menghitung koefisien korelasi, antara lain menggunakan program Microsoft Excell yang sudah sangat umum dipakai di Indonesia.

Koefisien korelasi antara skor hasil suatu tes dengan hasil tes lainnya melambangkan konsistensi hasil pengukuran. Konsistensi ini disebut sebagai koefisien reliabilitas hasil pengukuran. Dengan menghitung koefisien korelasi antara skor hasil suatu tes dengan hasil tes lainnya, pada dasarnya kita beruapaya menggetahui konsisten atau reliabel tidaknya hasil pengukuran tersebut. Koefisien korelasi antar hasil tes tersebut dianggap cukup memadai jika berada pada kisaran 0,75 ≤ ρxx ≤ 1,00. Koefisien reliabilitas untuk pengukuran pada beberapa cabang ilmu, masih bisa mentoleransi koefisien sebesar ρxx = 0,50, walaupun pada umumnya banyak pengukur yang mematok koefisien minimal sebesar ρxx = 0,75 [11].

Memperpanjang tes

Memperpanjang tes di sini diartikan sebagai menambah jumlah butir tes dalam jumlah yang cukup, dengan memperhatikan ketersediaan waktu pelaksanaan tes. Dalam banyak literatur ilmu pengukuran hasil belajar, menambah jumlah butir tes, dapat mening-katkan koefisien reliabilitas tes tersebut. Pada umumnya menambah panjang tes akan meningkatkan reliabilitas [8]. Sedangkan [4], berpen-dapat bahwa penambahan jumlah butir tes yang berkualitas adalah salah satu cara efektif untuk meningkatkan koefisien reliabilitas, yang digambarkan melalui tabel hasil ujicobanya sebagai berikut :

Dalam dokumen New Normal (Halaman 99-117)