Subjekivias penlaian guru menjelajahi ka

(1)

Subjekivias penlaian guru : menjelajahi karakterisik siswa yang memperngaruhi penilaian guru terhadap kemampuan siswa

1. pendahuluan

Kemampuan guru untuk secara akurat mengukur prestasi belajar siswadianggap sebagai aspek penting profesional guru kompetensi, karena penilaian guru sering menjadi sumber utama informasi tentang prestasi belajar siswa (Ready & Wright, 2011; Südkamp, Kaiser, & M oller, 2012; Südkamp, Kaiser, & Möller,2014). Penilaian guru adalah determinasi yang dibuat oleh guru tentang pencapaian siswa saat ini (lihat Bagian 2 lebih lanjut detail), dan dapat mempengaruhi pengambilan keputusan instruksional guru yang sedang berlangsung di dalam kelas, termasuk kecepatan instruksional, tingkat dukungan, dan tingkat kesulitan tugas (Alvidrez & Weinstein, 1999;Clark & Peterson, 1986; Hoge & Coladarci, 1989). Sebagai contoh,siswa dinilai lebih mampu lebih cenderung menerima kesempatan belajar berkualitas lebih tinggi daripada siswa yang dinilai kurang mampu (Clark & Peterson, 1986; Rubie-Davies, 2014; Rubie-Rubie-Davies, Hattie, & Hamilton, 2006; Sharpley & Edgar, 1986). Selanjutnya, Penilaian guru memiliki implikasi terhadap keputusan penempatan diprogram atau kelompok kemampuan, retensi kelas, dan akhirnya untuk jalur akademis masa depan siswa (Begeny, Eckert, Montarello, & Storie, 2008; Begeny, Krouse, Brown, & Mann, 2011; Francis dkk.,2016; Harlen, 2005; Parsons & Hallam, 2014; Wiliam & Bartholomew, 2004).

Secara internasional, banyak penelitian berfokus pada penilaian guru Keselarasan, terutama menyelidiki hubungan antara gurupenilaian dan pengukuran kinerja siswa. Ulasan tentang iniBadan penelitian telah menunjukkan kesepakatan yang luas antara penilaiandan standar penilaian rata-rata (r ¼ 0,63, Südkamp et al.,2012), namun relasinya sudah jauh tidak konsisten dengan lebarkisaran korelasi yang dilaporkan (0,03-0,92; Hoge & Coladarci,1989; Südkamp et al., 2012). Südkamp dkk. (2012) mencatat bahwaPenilaian guru menunjukkan korelasi yang lebih tinggi dengan yang diukur prestasi saat guru diberi tahu tentang ukuran apapenilaian mereka dibandingkan dengan Korelasi juga terjadilebih tinggi ketika penilaian dan tindakan ditujukan pada domain yang samaatau aspek kemampuan. Karakteristik uji lainnya seperti jumlahPoin pada skala penilaian tidak mempengaruhi tingkat keselarasanantara penilaian dan prestasi siswa terukur.

Dalam konteks Selandia Baru, penilaian guru secara keseluruhan (OTJs) diperkenalkan sebagai ukuran pencapaian spesifik di tahun 2010, dan dinilai terkait dengan standar kurikulum yang diharapkan di Indonesia membaca, menulis, dan matematika. Penilaian ini biasanya disebut sebagai Standar Nasional (NS), dan dimaksudkan untuk mencerminkan a Prestasi siswa dalam kaitannya dengan standar yang diharapkan siswa di tingkat tahun yang sama secara nasional. Guru diminta untuk pertimbangkan berbagai data, termasuk pengamatan pembelajaran siswa, belajar percakapan, dan penilaian formal seperti standar tes prestasi, untuk mencapai keputusan apakah seorang siswa memenuhi tuntutan kurikulum Selandia Baru (Kementerian Pendidikan, 2011). Penentuan apakah seorang siswa memenuhi persyaratan standar terserah guru, tanpa mandat berkenaan dengan mana dari bentuk bukti ini yang digunakan, atau tingkat pembobotan tipe data tertentu. Namun, penilaiannya harus dilakukan fokus hanya pada prestasi siswa pada saat itu dan waktu Seharusnya tidak menyertakan informasi yang tidak relevan seperti siswa perilaku atau kemampuan potensial yang dirasakan.

(2)

belajar sedangkan penilaian guru harus memperhitungkan a jumlah aspek pencapaian siswa secara keseluruhan bidang subjek Meskipun demikian, sementara penelitian sebelumnya telah diselidiki hubungan antara penilaian dan pencapaian standar, sifat penilaian guru dan apa yang menginformasikan keputusan ini tetap relatif belum dijelajahi. Pertanyaannya tetap ada apakah korelasi yang lebih rendah hanya mencerminkan perbedaan sifat dari penilaian, atau apakah ada yang membangun faktor yang tidak relevan yang mempengaruhi guru ketika mereka membuat penilaian tentang kinerja siswa Misalnya, meski tidak ada etnisitas maupun tidak Status kebutuhan khusus harus mempengaruhi penilaian tentang siswa Prestasi, penelitian sebelumnya telah menunjukkan bahwa faktor tersebut mungkin memang mempengaruhi penilaian guru (lihat misalnya, Glock, Krolak- Schwerdt, & Pit-ten Cate, 2015; Martínez, Stecher, & Borko, 2009; Ready & Wright, 2011). Meskipun perbedaan dalam penilaian guru yang diharapkan karena ada kesalahan acak dalam semua penilaian kinerja siswa, perbedaan sistematik berkaitan dengan subkelompok tertentu akan menyarankan tingkat bias.

Penyelarasan antara tes standar dan penilaian guru mungkin juga dipengaruhi oleh pendekatan penafsiran yang inheren berbeda (Hattie & Brown, 2003; Hattie et al., 2003). Standar Tes secara khusus dirancang untuk memaksimalkan kehandalan dan konsistensi lintas siswa, ruang kelas, sekolah, dan daerah. Sebaliknya, Guru individu biasanya melakukan evaluasi terhadap kinerja siswa

dalam kaitannya dengan bukti tingkat lokal (kelas atau sekolah). Itu adalah, meskipun penilaian guru dapat didefinisikan sebagai kriteria yang ditentukan, penilaian cenderung dipengaruhi oleh normatif

evaluasi, seperti seberapa baik kinerja masing-masing siswa dalam hubungan kepada siswa lain di kelas guru (Angoff, 1974).

Meskipun banyak pekerjaan yang menyelidiki sifat – sifat penilaian guru, sebagian besar penelitian ini telah dilakukan dalam konteks Amerika Utara. Pengecualian yang penting termasuk

studi sebelumnya oleh Doherty dan Conolly (1985) dan Sharpley dan Edgar (1986), yang dilakukan di Australia dan Inggris masing, serta penelitian yang lebih baru dilakukan di Jerman oleh Kaiser, Retelsdorf, Südkamp, dan Möllller (2013).

Studi saat ini memperluas pekerjaan sebelumnya yang menyelidiki sifat tersebut penilaian guru dalam beberapa cara. Ini sangat erat sejajar dengan karya Ready and Wright (2011), namun mengacu pada sampel dari siswa yang lebih tua (sekitar 9e13 tahun) di kedua membaca

dan menulis. Penelitian Ready and Wright (2011) difokuskan pada taman kanak-kanak siswa dan penelitian telah menunjukkan bahwa keselarasan antara Penilaian guru dan prestasi terukur bisa berbeda di tingkat kelas, menyoroti kebutuhan untuk studi lebih lanjut dengan

menghormati siswa yang lebih tua (Südkamp et al., 2014). Sebagai tambahan, guru dalam studi Ready and Wright (2011) tidak memiliki akses ke hasil penilaian standar siswa, sedangkan guru di

(3)

penilaian guru dan hasil pencapaian standar yang terkumpul dalam konteks kelas yang sebenarnya dimana pengumpulan data tidak ukuran yang dikenakan untuk sekolah.

Penelitian sebelumnya telah sering berfokus pada hal yang relatif kecil,sampel siswa yang dilokalkan; ukuran sampel rata-rata 75studi yang dilaporkan dalam meta-analisis baru-baru ini oleh Südkamp dkk. (2012)adalah 518 siswa Studi saat ini menarik data dari skala besarproyek pengembangan profesional guru dengan hampir 5000 orangsiswa diwakili dalam membaca, dan sekitar 12.000 tambahansiswa untuk menulis Karena penilaian guru pada dasarnya mungkin terjadiuntuk melanggar asumsi statistik kemerdekaan karena satuguru menentukan penilaian untuk semua siswa di kelasnya,Kami menggunakan pemodelan linier hierarkis tingkat tiga dalam analisisdengan siswa bersarang di dalam ruang kelas dan bersarang di dalamnyasekolah. Hal ini memungkinkan pengelompokkan data yang adadicatat.

Selanjutnya, sebagian besar studi penilaian guru belummenghadiri perbedaan antar kelompok sehubungan dengan siswakarakteristik. Sejauh mana karakteristik siswa mempengaruhiPenilaian keseluruhan prestasi guru tetap sebagian besartidak meyakinkan Karena pentingnya kesempatan pendidikan yang setara,Ini adalah fokus utama dari studi saat ini.

2. Review literatur penilaian guru

Bagian berikut memberikan ulasan tentang literatur yang adapada penilaian guru e kesejajaran mereka dengan standarhasil prestasi dan dampak karakteristik siswa dankomposisi sekolah tentang penilaian ini. Karena tumpang tindihnyaharapan guru dan penilaian guru, tinjauan dimulaidengan diskusi singkat tentang masalah ini.

2.1. Harapan guru dan penilaian guru

Harapan guru dan penilaian guru serupa dalam hal itukeduanya mewakili perkiraan guru subjektif tentang siswaprestasi. Mereka terutama berbeda dalam harapan itu biasanyaprediksi tentang prestasi masa depan sementara penilaian adalah arusperkiraan kinerja seorang siswa Yang terakhir ini kebanyakandibuat dalam keadaan dimana guru telah mengajar siswauntuk beberapa waktu dan karena itu dapat memperhitungkan berbagai informasi.Sebaliknya, ekspektasi guru fokus pada yang diharapkanperbaikan atau kinerja selama periode waktu yang akan datang, danprediksi kemungkinan kemajuan akademik seorang siswadaripada penilaian keterampilan dan pengetahuan mereka saat ini (lihat untukcontoh Rubie-Davies, Peterson, Sibley, & Rosenthal, 2015).

Südkamp dkk. (2014) menunjukkan bahwa penelitian mempertimbangkan kelompok

Perbedaan berdasarkan karakteristik siswa sebagian besar terfokus pada harapan guru bukan penilaian guru. Guru Penelitian harapan telah menyimpulkan bahwa harapan guru

tentang kemampuan siswa tunduk pada bias yang berhubungan dengan kemampuan siswa. etnisitas, status sosial ekonomi (SES), jenis kelamin, dan kebutuhan khusus, dan bahasa Inggris untuk bahasa Speakers of Other Languages (ESOL) (McKown & Weinstein, 2008; Rubie-Davies et al., 2012; Südkamp et al., 2012). Namun, penulis di bidang ini telah mencatat bahwa siswa '

(4)

Peneliti harapan guru juga mencatat bahwa bias negatif harapan cenderung bermasalah karena alasan di luar yang sederhana prasangka. Dikatakan bahwa ketika guru meremehkan siswa ' Tingkat pencapaian saat ini, mereka cenderung merencanakan tingkat yang lebih rendah

kesempatan belajar bagi siswa tersebut (Rubie-Davies dkk., 2006). Pada gilirannya, ini secara langsung mempengaruhi seberapa banyak siswa belajar, karena peluang belajar diferensial ini terakumulasi waktu dan akhirnya mengurangi kesempatan hidup siswa (Rubie-Davies,

2014). Penilaian guru tampaknya akan tunduk pada bias serupa, namun karena penilaian guru lebih sering diformalkan keputusan taruhan tinggi seperti penempatan siswa dalam kelompok kemampuan atau masuk ke jalur pendidikan tertentu, konsekuensi dari Setiap bias dalam penilaian ini sangat serius.

2.2. Penilaian guru dan pengaruh karakteristik siswa

Penelitian yang berfokus pada penilaian guru cenderung untuk fokus lebih kuat pada tingkat keseluruhan korespondensi antara penilaian guru dan prestasi siswa terukur, dan kurang

perbedaan dalam penilaian ini untuk kelompok siswa tertentu. Guru Penelitian penilaian mempertimbangkan pengaruh karakteristik siswa atas penilaian tersebut tetap tidak meyakinkan. Sebelumnya review dan meta-analisis menunjukkan kesulitan dengan agregasi dari hasil sebagai informasi tentang karakteristik siswa telah langka atau dilaporkan secara agregat (mis., Hoge & Coladarci, 1989; Siap & Wright, 2011; Südkamp et al., 2014). Selanjutnya, penelitian mengingat karakteristik siswa sering menggunakan penilaian guru untuk memvalidasi skala penilaian dan ukuran untuk domain tertentu dan kelompok siswa (misalnya, Lembke, Foegen, Whittaker, &

Hampton, 2008; Li, Pfeiffer, Petscher, Kumtepe, & Mo, 2008; Methe, Hintze, & Floyd, 2008), bukan untuk memeriksa perbedaan dalam penilaian guru untuk kelompok pelajar tertentu. Namun, Beberapa karakteristik siswa memerlukan pemeriksaan dalam hal apakah karakteristik ini menginformasikan atau mempengaruhi penilaian guru, termasuk gender, etnisitas, latar belakang sosial ekonomi, dan kebutuhan khusus siswa atau status ESOL.

Martínez dkk. (2009) menemukan bahwa kesenjangan antara minoritas danKemampuan akademis siswa non-minoritas TK dinilaimenjadi lebih kecil oleh guru daripada yang disarankan oleh hasil tes standardalam matematika Penulis menyimpulkan bahwa guru mungkintelah mengkompensasi ketidakadilan yang dirasakan. Sebaliknya,Ready and Wright (2011) menyimpulkan bahwa penilaian guru untuksiswa TK dari SES rendah atau latar belakang minoritasbias negatif dalam domain melek huruf, sedangkan Feinberg danShapiro (2003) tidak menemukan pengaruh etnisitas siswa terhadap gurupenilaian.

(5)

keterampilan akademis atau melek huruf karena perilaku mereka dianggap lebih bermasalah dari pada itu dari anak perempuan Beberapa penelitian menunjukkan bahwa faktor perilaku seperti keterlibatan siswa dan motivasi dapat mempengaruhi gurupenilaian (Benner & Mistry, 2007; Dompnier, Pansu, & Bressoux, 2006; Kaiser et al., 2013).

Beberapa penelitian telah meneliti efek bahasa Inggris itupelajar atau status kebutuhan khusus ada pada penilaian guru, tapiPenelitian sejauh ini telah menunjukkan hubungan negatif. Hurwitz, Elliott,dan Braden (2007) berpendapat bahwa guru secara konsisten meremehkankinerja siswa dengan status kebutuhan khusus,sedangkan Martínez dkk. (2009) menemukan bahwa guru menandai siswadengan pelajar bahasa Inggris atau status kebutuhan khusus lebih rendahmatematika daripada hasil tes prestasi standardisarankan

2.3Perbedaan metodologis dalam studi penilaian guru

Seperti yang dijelaskan di bagian sebelumnya, studi tentang penilaian gurubiasanya tidak mempertimbangkan perbedaan kelompok berdasarkankarakteristik siswa Dimana perbedaan kelompok telah terjadidianggap, ukuran tujuan pencapaian siswa milikijarang dipekerjakan sebagai alat penilaian penilaian guruketidaksesuaian untuk subkelompok tertentu, sehingga mengabaikan kontroluntuk perbedaan prestasi belajar siswa antar kelompok tersebut. DiSecara umum, penelitian ini mengikuti desain dimana guru memilikimenilai kemampuan siswa saat ini dalam skala yang disediakan oleh para peneliti(misalnya, Kaiser et al., 2013; Ready & Wright, 2011).

Selain itu, data jarang dikumpulkan dengan cara biasakonteks kelas, membandingkan antara perbedaan kelompok dipenilaian guru siswa mereka sendiri. Hal ini penting karenaSaat guru membuat penilaian siswa dalam eksperimenstudi, deskripsi yang mereka baca bukan murid mereka sendiri.Oleh karena itu, tidak mungkin untuk menentukan apakah tanggapan dariGuru dalam penelitian eksperimental akan sama seperti naturalistikstudi di mana mereka mengenal murid mereka dengan baik dan berinteraksidengan mereka setiap hari (Rubie-Davies, 2014).

Studi oleh Kaiser dkk. (2013) dan Ready and Wright (2011) menyediakan studi naturalistik terlengkap yang pernah ada di Indonesia pengaturan kelas yang sebenarnya Secara total, kita hanya bisa mengidentifikasi tiga studi yang menggunakan data naturalistik penilaian guru

dalam konteks kelas sambil juga memeriksa standar hasil pencapaian (Kaiser et al., 2013; Martínez et al., 2009; Ready & Wright, 2011). Kaiser dkk. (2013) melaporkan tiga

studi yang meneliti hubungan timbal balik antara siswa ' prestasi membaca, pertunangan, dan penilaian guru. Itu Studi pertama menarik data dari 52 guru dan 1135 siswa yang mengambil

(6)

perbandingan.Selain rendahnya korelasi antara penilaian guru dan aktualPrestasi, penulis melaporkan adanya pengaruh keterlibatan siswatentang penilaian guru terhadap prestasi belajar siswa dan sebaliknya. ItuStudi tidak menguji perbedaan penilaian siswakarakteristik.

Penelitian oleh Martínez et al. (2009) dan Ready and Wright (2011) keduanya menggunakan data dari Survei Longitudinal Anak Usia Dini, yang diikuti 22.000 anak di Amerika Serikat dari

TK sampai kelas lima. Martínez dkk. (2009) dianalisis penilaian guru dan prestasi matematika sedangkan Siap dan Wright (2011) fokus pada domain melek huruf. Sampel analitik mereka

masing sekitar 10.000 siswa. Martínez dkk. (2009) menyimpulkan bahwa guru menilai kesenjangan prestasi yang lebih kecil dari pada ditunjukkan dengan penilaian standar untuk perempuan, minoritas dan siswa dari latar belakang SES rendah. Mereka berpendapat bahwa ini bisa mencerminkan bias dalam tes, atau upaya yang disengaja oleh para guru Mengkompensasi kerugian yang dihadapi oleh kelompok siswa ini. Namun, prestasi tidak dikontrol secara khusus. Secara langsung Sebaliknya, Ready andWright (2011) dikontrol untuk siswa terukur prestasi dan menyimpulkan bahwa bias negatif tampaknya jelas. Meski kira-kira separuh dari perbedaan kelompok tersebut dihitung antara perbedaan kelompok yang ditunjukkan oleh standar penilaian, perbedaan yang tersisa ditunjukkan bias sistematis Guru dalam penelitian tersebut telah melebih-lebihkan jumlah anak perempuan kinerja dan meremehkan siswa Black, Asia, dan Hispanik, dan terutama siswa dari latar belakang sosioekonomi rendah (lebih dari setengah standar deviasi) dalam penilaian mereka. Itu Penulis menunjukkan kekhawatiran bahwa hasil penelitian mereka disarankan secara sistematis bias antar guru tentang pelajar yang sudah terpinggirkan, berpotensi memperburuk disparitas yang ada.

2.4. Penilaian guru, kelas, dan efek komposisi sekolah

Penilaian guru dilakukan dalam konteks individu ruang kelas bersarang di sekolah. Martínez dkk. (2009) dan Siap dan Wright (2011) mempertimbangkan nestedness ini dengan menggunakan

pemodelan linier hierarkis dan keduanya menemukan variasi yang tinggi antara ruang kelas dan sedikit variasi antar sekolah. Sedangkan Martínez dkk. (2009) memeriksa keseluruhan perbedaan antara ruang kelas berkenaan dengan praktik guru, Ready and Wright (2011) menggunakan variabel kelas dan tingkat sekolah yang berbeda di Berkenaan dengan karakteristik guru dan siswa. Di kelas tingkat, variabel termasuk komposisi kelas (mis., kelas SES rata-rata dan kemampuan melek huruf, dan proporsi minoritas yang tinggi) dan karakteristik guru (misalnya, etnis guru, pencapaian pendidikan, dan pengalaman). Ready and Wright (2011) menyimpulkan itu

komposisi kelas memiliki pengaruh yang lebih kuat terhadap penilaian guru daripada karakteristik guru. Guru dalam pencapaian yang lebih tinggi dan Kelas SES yang lebih tinggi melebih-lebihkan kemampuan melek huruf siswa,bahkan setelah mengendalikan SES tingkat anak dan pencapaian yang diukur, dan meremehkan keterampilan siswa dalam pencapaian yang lebih rendah dan

(7)

cenderung meremehkan kemampuan siswa, sedangkan guru di sekolah kecil cenderung melebih-lebihkan kemampuan melek huruf siswa..

Sebagai kesimpulan, telah diperdebatkan bahwa penilaian guru memungkinkan

Untuk pemahaman yang lebih holistik tentang prestasi belajar siswa, sejak interaksi sehari-hari guru dengan siswa memberi mereka a Gambaran yang lebih kaya dari apa yang siswa tahu dan bisa lakukan selain tes sendiri (Chamberlain, 2010; Südkamp et al., 2014). Namun, sebelumnya

penelitian menunjukkan bahwa penilaian guru mungkin bias dasar karakteristik siswa dan dipengaruhi oleh kelas dan konteks sekolah. Sedikit penelitian telah memeriksa penilaian guru dalam pengaturan naturalistik (lihat misalnya, Hopkins, George, & Williams, 1985; Meisels, Bickel, Nicholson, Xue, & Atkins-Burnett, 2001), dan bahkan penelitian lebih sedikit telah mempertimbangkan siswa yang spesifik karakteristik kelompok, kelas, dan faktor tingkat sekolah dalam apengaturan naturalistik (lihat Ready & Wright, 2011). Bias sistematik seperti yang diisyaratkan oleh Ready and Wright (2011), bisa berfungsi memperburuk dan mengabadikan kesenjangan pencapaian, bertentangan dengan gagasan tentang persamaan kesempatan (de Boer, Bosker, & van derWerf,2010). Namun, penelitian Ready and Wright (2011) difokuskan siswa TK dan penelitian telah menunjukkan bahwa keselarasan antara penilaian guru dan prestasi terukur bisa berbeda di tingkat kelas, menyoroti kebutuhan untuk studi lebih lanjut dengan

menghormati siswa yang lebih tua (Südkamp et al., 2014).\ 3. Penelitian saat ini

Bagian berikut memberikan detail latar belakang tentang NewKonteks dan proyek dari mana data diperoleh,penggunaan penilaian guru dalam konteks ini, dan jugadeskripsi tujuan dan tujuan penelitian ini.

3.1. Konteks Selandia Baru

Siswa di Selandia Baru menghadiri sekolah dasar dari tahun 1e8 (~ 5e13 tahun), sedangkan sekolah menengah diperuntukkan bagi siswa di Indonesia Tahun 9e13. Sekolah dan guru Selandia Baru sangat otonom relatif terhadap sistem pendidikan secara global (Hanushek, Link, & Woessmann, 2013; Wylie, Cosslett, & Burgon, 2016). Sejak tahun 1989, Masing-masing sekolah telah mandiri, mengelola sendiri administrasi unit. Setiap sekolah dikelola oleh dewan pengawas yang dibuat Sebagian besar didominasi oleh orang tua, anggota staf sekolah, saat ini siswa (di tingkat sekolah menengah), serta kepala sekolah. Dewan dipilih setiap tiga tahun, dan bertanggung jawab atas keseluruhan berjalan dan kinerja sekolah. Nomor staf (termasuk pembantu guru dan staf pendidikan khusus) ditentukan secara nasional, dengan dana yang dialokasikan oleh Kementerian Pendidikan, namun masing-masing dewan bertanggung jawab secara individu untuk mempekerjakan staf, mengalokasikan dana operasional dan memastikan anggaran dipenuhi (Wylie et al., 2016). Sekolah menggunakan kurikulum nasional yang menyediakan kerangka kerja umum bidang pembelajaran, nilai, dan kunci Kompetensi tapi sekolah memiliki fleksibilitas untuk merancang dan menyesuaikan diri kurikulum untuk komunitas sekolah mereka.

(8)

rata-rata relatif tinggi,Data prestasi biasanya menunjukkan disparitas yang besar, dengan yang khususkelompok semakin banyak terwakili dalam kuartil terendahdistribusi (OECD, 2005, 2013; Ogle et al., 2003). Baru. Zealand, disparitas terbesar ada untuk siswa M? Aori dan Pasifika,dan mereka yang bersekolah dengan ekonomi sosio rendahdaerah tangkapan air

Pengenalan keseluruhan penilaian guru (OTJs) tahun 2010 itu, pura-pura, dimaksudkan sebagai pergi untuk mengukur dan mudah-mudahan mengurangi disparitas ini. Kinerja dinilai 'secara holistik' berdasarkan bukti yang dianggap sesuai untuk setiap siswa oleh siswa guru (Kementerian Pendidikan, 2010). Sudah cukup banyak komentar untuk dan melawan kebijakan tersebut, dengan para pendukungnya memperdebatkannya Penilaian holistik mempertahankan luasnya dalam kurikulum, sementara lawan meningkatkan kekhawatiran tentang potensi bias dan tidak dapat diandalkan (Courtney, 2010; Eames, 2010; Departemen Pendidikan, 2011, 2010;

€ OZerk & Whitehead, 2012; Smith, Anderson, & Blanch, 2016; Thrupp, 2013). Penilaian ini memiliki implikasi penting sekolah siswa Sementara siswa di Selandia Baru tidak ditahan Kembali, dalam pengelompokan kemampuan kelas adalah praktik yang mengakar, Meskipun ada penelitian yang menunjukkan bahwa hal tersebut berkontribusi terhadap pelestarian disparitas (Schmidt, Burroughs, Zoido, & Houang, 2015; Wilson, Madjar, & McNaughton, 2016). Karena kelompok kemampuan ditentukan Dengan penilaian guru, penentuan yang andal dan adil adalah

penting. Selain itu, data Standar Nasional gabungan (NS) adalah mditerbitkan di situs Kementerian Pendidikan Nasional (Kementerian Agama Education, 2016) dan agen media menyediakan NS school league tabel (Fairfax Selandia Baru Limited, 2012, 2016). Meskipun Pentingnya penilaian ini, penelitian empiris minimal telah dilakukan untuk menilai sifat-sifat ukuran sampai saat ini.

3.2. Proyek pembelajaran profesional

Penelitian ini mengacu pada data yang dikumpulkan dalam profesional nasional yang besar

proyek pembelajaran dan pengembangan, yang disebut Konsorsium untuk Belajar Profesional (CPL; untuk rincian lengkap lihat cpl.org.nz). Itu Proyek ini didanai oleh Kementerian Pendidikan Selandia Baru, dan bertujuan untuk memastikan bahwa pembelajaran profesional dihasilkan terukur keuntungan dalam prestasi siswa, dengan fokus khusus pada peningkatan keadilan. Perbaikan dievaluasi dari sisi keuntungan keduanya pencapaian standar dan hasil OTJ, namun tidak ada fokus untuk memastikan keselarasan hasil standar dengan OTJs. Sejak baru

Sekolah-sekolah di Zealand adalah pemerintahan sendiri, partisipasi dalam proyek ini bersifat sukarela, artinya sekolah memilih apakah akan "opt-in". Karena fokus perbaikan proyek, mayoritas sekolah memilih untuk mengambil bagian melakukannya dari kebutuhan yang dirasakan sendiri untuk diperbaiki hasil prestasi siswa Seleksi diri ini menghasilkan overrepresentasi sekolah dengan profil SES rendah, serta representasi yang berlebihan

siswa Pasifika relatif terhadap siswa nasional Profil. Meskipun ini over-representasi, rangkaian lengkap Jenis sekolah berpartisipasi dalam proyek ini. 3.3. Tujuan penelitian ini

(9)

aPrestasi siswa lebih holistik dari satu tes (kementerianPendidikan, 2012). Menentukan apakah ada yang sistematisperbedaan antara penilaian guru dan standarisasiNamun, tes prestasi penting karena ada perbedaanakan menyarankan bukti yang tidak terkait dengan perbedaan prestasi aktualsedang memainkan peran dalam penilaian guru. Seperti Selandia Baruguru diwajibkan untuk melaporkan OTJ untuk setiap siswa pada Tahun 1sampai 8 (umur sekitar 5e13 tahun) untuk membaca, menulis,dan matematika pada akhir setiap tahun (lihat Bagian 4.2.1 secara lengkaprincian), sistem pendidikan menyediakan konteks naturalistik untuk mempelajari penilaian guru dan keselarasan mereka dengan standarukuran prestasi Sekolah-sekolah Selandia Baru juga biasanya digunakanpenilaian standar, dan guru diberi tahu bahwa penilaian inidapat digunakan untuk menginformasikan penilaian guru, tapi tidak adapersyaratan untuk melakukannya

Pertanyaan penelitian menyeluruh adalah apakah adaperbedaan sistematis dalam penilaian yang dibuat gurupencapaian siswa yang termasuk dalam kelompok pelajar prioritas,yang tidak dijelaskan oleh perbedaan yang ditunjukkan oleh standarisasiprestasi. Kelompok pelajar prioritas di Selandia Baru didefinisikan sebagaiyang secara tradisional terpinggirkan / terlayani di dalam NewSistem pendidikan Selandia Baru (yaitu, laki-laki, M? Aori dan Pasifika, siswadengan kebutuhan khusus, dan siswa untuk siapa bahasa Inggris adalah bahasa kedua merekabahasa (ESOL)). Selain itu, yang menarik adalah apakah adafaktor kontekstual yang mengurangi atau memperburuk sistematika apapunperbedaan terdeteksi dalam penilaian guru. Demikian relasinyaantara penilaian guru dan karakteristik siswadiperiksa dengan memperhatikan perbedaan standarisasihasil prestasi

Pertanyaan penelitian spesifik yang diteliti dalam penelitian ini adalah sebagaiberikut:1. Apa korelasi antara hasil pencapaian standardan penilaian guru terhadap prestasi belajar siswa?2. Setelah memperhitungkan perbedaan prestasi standar,Ada perbedaan residual dalam penilaian guru siswaPrestasi yang bervariasi secara sistematis oleh karakteristik siswa(yaitu, jenis kelamin, etnisitas, status ESOL, dan status kebutuhan khusus)?3. Setelah memperhitungkan perbedaan prestasi standar,Ada perbedaan residual dalam penilaian guru siswaPrestasi yang bervariasi secara sistematis oleh faktor kontekstual (yaitu,komposisi kelas dan prestasi sekolah, etniskomposisi, profil sosial ekonomi sekolah, ukuran sekolah, danwilayah)?

4. Metode 4.1. Peserta

Penelitian ini menggunakan data prestasi membaca dan menulis dikumpulkan pada akhir tahun akademik 2012 dan 2013 sebagai bagian dari sebuah proyek pengembangan profesional skala besar yang sedang berlangsung di seluruh Selandia Baru Kami memilih semua siswa dari Tahun 4e8 (sekitar 8e13 tahun; Kelas 3 sampai 7) yang telah berakhir tahun standar prestasi dari subjek yang sama domain, selain OTJ mereka. OTJs (lihat Bagian 4.2.1 secara lengkap deskripsi) yang ditentukan pada akhir tahun mewakili guru penilaian setelah bekerja dengan masing-masing siswa secara lengkap tahun. Data untuk siswa pada Tahun 1e3 (berusia sekitar 5e8; K sampai

(10)

menyediakan data hanya untuk satu domain, sekitar 20% sekolah (n = 26) memilih untuk menyediakan data untuk membaca dan menulis, mengenalkan beberapa tumpang tindih di dua sampel. Makanya, datanya tidak sangat independen Sekolah yang berpendidikan cenderung lebih rendah daerah tangkapan sosioekonomi dan memiliki kelebihan penyajian Pasifika siswa dibandingkan dengan populasi pelajar nasional. Tabel 1 menyajikan informasi demografis untuk bacaan dan menulis sampel secara lebih rinci.

Dalam kedua domain subjek, lebih dari separuh sekolah

Tabel 1Karakteristik demografi tingkat pelajar menurut subjek domain.

(baca: n =28; tulisan: n = 62) terletak di daerah SES rendahm(decile1 rating 1e3), sekitar sepertiga di pertengahan area SES (rating decile 4-7; membaca: n =12; menulis: n =31), dan relatif sedikit di

zona yang lebih makmur (decile rating 8-0; reading: n =4; writing: n = 12). Secara geografis,m sekolah yang berpartisipasi terutama berada di Pulau Utara Selandia Baru (baca: n = 42; menulis:

n =92). Jumlah sekolah yang jauh lebih kecil berasal dari Selatan Pulau (baca: n =2; tulisan: n =13). Mayoritas penduduknya mtinggal di Pulau Utara (~ 75%), dan relatif kurang makmur dibanding Pulau Selatan; 91% sekolah SES rendah berada di Pulau Utara. Rata-rata rol sekolah sekitar 250 siswa, meskipun ini sangat bervariasi (baca: M =247,12, SD =239,55; menulis: M = 244.64, SD = 203.11). Rata-rata, adil lebih dari separuh siswa di masing-masing sekolah berasal dari Selandia Baru atau Pasifika turun (baca: 60%; menulis: 56%), meski angka ini lebih tinggi di wilayah utara. Karena sampel diambil dari proyek pengembangan profesional di mana sekolah memilih

Berdasarkan penilaian kebutuhan mereka sendiri, sampel lebih banyak berbobot ke sekolah dengan pencapaian yang rendah dan profil SES. Namun, keragaman sampel berarti rangkaian lengkap siswa dan sekolah tetap terwakili.

4.2. Ukuran

4.2.1. Variabel tak bebas

(11)

dengan saransumber bukti prestasi yang mungkin; sebagai contoh pengamatan pembelajaran siswa, percakapan dengan siswa,tes kelas, dan hasil pencapaian standar (KementerianPendidikan, 2011). Dengan demikian, OTJ adalah pertimbangan yang kompleks yang bisa dibilangmerangkum kemampuan siswa yang lebih luas daripada yang aukuran prestasi tunggal bisa menunjukkan. OTJ adalah sebuah KementerianPersyaratan pendidikan untuk semua sekolah yang bekerja dengan siswa di IndonesiaTahun 1e8 (5e13 tahun), dan dilakukan setiap akhir tahunsekolah. Sayangnya belum ada penelitian yang dilakukanmenyelidiki keandalan atau validitas OTJs, jadi metrik ini tidaktersedia.

4.2.2. Nilai pencapaian standar

Sebagian besar sekolah di proyek pengembangan profesional guru melakukan uji prestasi standar menjelang akhir tahun tahun sekolah, dekat saat OTJ dibuat. Umumnya, guru memiliki akses terhadap hasil tes ini sebelum menentukan OTJ yang sesuai untuk setiap siswa. Sekolah memilih untuk menggunakan keduanya Alat Penilaian untuk Pengajaran dan Pembelajaran (e-asTTle) atau Tes Prestasi Progresif (PAT). Kedua tes ini dibangun khusus untuk konteks pendidikan Selandia Baru menggunakan teori item-response (Brown, 2013; Darr, McDowall, Ferral, Twist, & Watson, 2008; Darr, Neill, Stephanou, & Ferral, 2006). Penggunaan teori respon item memastikan pencapaian itu diukur pada skala umum terlepas dari item tertentu yang digunakan dalam setiap tes Namun, sementara ini memastikan kesetaraan Berbagai bentuk tes yang sama, tidak harus mengikuti itu PAT dan e-asTTle setara. Oleh karena itu, keselarasan antara OTJ dan setiap tes dinilai secara terpisah untuk menentukan apakah relasinya berbeda. Tes ini sama-sama direferensikan (memungkinkan perbandingan terhadap harapan kurikulum untuk siswa di setiap tingkat tahun) dan referensi norma (memungkinkan perbandingan terhadap prestasi khas nasional). Keandalan dari easTTle dilaporkan menjadi ¼ 0,96 (Kementerian Pendidikan & NZCER, 2012), dan keandalan PAT Reading Comprehension adalah alfa =0,90 (Darr et al., 2006, 2008).

Setiap tes standar dinilai pada interval seninya sendiriskala umum. Karena siswa yang lebih tua biasanya diharapkanuntuk mencapai nilai yang lebih tinggi, norma akhir tahun sekolah untuktingkat masing-masing tahun dikurangkan dari aktualnyaskor untuk menghilangkan efek maturasi pengganggu. Untuk standarisasiskor e-asTTle dan PAT untuk membaca dan menulis, tes siswaSkor relatif terhadap norma dibagi dengan standar sampel penyimpangan dari tes yang sesuai. Ini menempatkan semua prestasiskor pada skala yang sama terlepas dari tes yang diberikan.Nilai absolut kemiringan (baca: 0,25= ¼ 0,04;menulis= 1,06, SE=0,02) dan kurtosis (baca: 0,86, SE = 0,07;menulis: 3,39, SE =0,05) untuk nilai standar di bawah 2dan 7, masing-masing, dan dengan demikian berada dalam kondisi normalkisaran yang dapat diterima untuk normalitas (Kim, 2013; Kline, 2005). Namun,karena uji Kolmogorov-Smirnov menunjukkan signifikan secara statistikpenyimpangan dari normalitas, rantai Markov Monte Carlo (MCMC)estimasi digunakan untuk Model Linear Hierarkis (HLMs) kemengurangi kepergian ini (Gill, 2002). Distribusi miring negatifkemungkinan merupakan cerminan dari representasi berlebihan desil rendahsekolah dan kelompok etnis minoritas dalam sampel, seperti kelompok inibiasanya memiliki prestasi yang lebih rendah (Hattie, 2008).

4.2.3. Karakteristik siswa

(12)

kelompok pembanding. Variabel demografis lainnya dikodekan sebagaivariabel dummy biner, termasuk gender siswa (pria = 0,betina= 1), status ESOL (tidak ada =0, ya =1), dan status kebutuhan khusus(tidak ada =0, ya = 1).

4.2.4. Karakteristik kelas

Komposisi pencapaian kelas, diukur dengan menggunakanRata-rata pencapaian standar siswa di setiap kelas,diperiksa sebagai variabel Level 2. Sebagai standar tingkat siswaSkor prestasi sudah terstandarisasi di sanatidak perlu memusatkan ukuran agregat. Kami tidak punyaakses ke data tingkat kelas lainnya seperti gender guru atauetnisitas

4.2.5. Karakteristik sekolah

Efek kontekstual juga diperiksa dengan memasukkan tingkat sekolah karakteristik pada Level 3 di HLMs. Karakteristik ini termasuk: pita decile sekolah (rendah [1-3], pertengahan [4-7] atau tinggi

[8-10] decile); wilayah sekolah (selatan tengah, selatan, atau utara); ukuran sekolah (jumlah siswa di sekolah roll); itu persentase siswa minoritas yang menghadiri setiap sekolah ('minoritas'

didefinisikan sebagai siswa yang diidentifikasi sebagai M? aori dan / atau Pasifika; siswa etnis 'lainnya' tidak disertakan karena biasanya ada tidak ada kesenjangan prestasi antara kelompok ini dan Selandia Baru Eropa; Satherley, 2006); dan komposisi prestasi sekolah (rata-rata pencapaian standar sekolah). Decile band dan Wilayah sekolah dimasukkan ke dalam model sebagai dummycoded polytomous variabel dengan cara yang sama seperti yang dijelaskan untuk etnisitas, dengan desil rendah dan wilayah Utara sebagai kelompok referensi. Ini kelompok dipilih sebagai referensi karena keduanya mewakili proporsi terbesar siswa. Ukuran sekolah dan persentase minoritas adalah grand-mean berpusat untuk meningkatkan interpretability, tapi

mempertahankan skala yang sama (Kreft, de Leeuw, & Aiken, 1995). Sekolah Komposisi prestasi tidak terpusat sebagai standar tingkat siswa Skor prestasi sudah terstandarisasi

4.3. Pendekatan analitik

Kami menggunakan HLM tingkat tiga (Raudenbush & Bryk, 2002;Woltman, Feldstain, MacKay, & Rocchi, 2012), dengan siswa bersarangdi ruang kelas bersarang di sekolah. Model ini diperhitungkanpengelompokan dalam data dan diperlukan karena OTJ dibuat olehguru kelas dan dengan demikian dapat bervariasi dalam interpretasiruang kelas (Ready & Wright, 2011). Pemodelan linier hierarkis adalah perpanjangan regresi konvensional, dan oleh karena itu diperkirakansejauh mana variabel prediktor berhubungan dengan hasil diferensial.Seperti halnya regresi, model ini membangun hubungan antara keduanyavariabel dan tidak bisa menjelaskan kausalitas. HLM ituDiperkirakan menggunakan MLwiN 2,26 dengan estimasi MCMC, karena MCMCcenderung mengungguli metode kemungkinan (mis., kemungkinan maksimum)ketika data tidak normal (Gill, 2002).Kami melakukan HLM terpisah untuk setiap titik waktu untuk membacadan menulis (yaitu, Membaca 2012, 2013; Menulis 2012; dan Menulis2013). Setiap model dibangun dengan cara yang sama. Pertama, tanpa syaratmodel ditentukan sebagai:

Yijk ¼ g000 þ u00k þ r0jk þ eijk

(13)

berpendapat hirarkiharus ditentukan bahkan untuk tingkat pengelompokan yang rendah (mis.,Dorman, 2008).

Selanjutnya, nilai pencapaian standar ditambahkan sebagai Level 1 prediktor untuk memperhitungkan prestasi belajar siswa yang diukur dengan a tes standar Setelah itu, model dibangun secara iteratif; prediktor siswa, kelas, dan sekolah diperiksa Secara terpisah, maka masuk dalam model lengkap, untuk diselidiki variabel yang menjelaskan sejumlah besar varians

dalam OTJ setelah pencapaian standar dicatat. Faktor dapat dimasukkan hanya memungkinkan mencegat istilah bervariasi pada masing-masing tingkat, atau lereng individu. Ini membuat akal teoritis untuk memungkinkannya hubungan antara pencapaian standar dan OTJs bervariasi ruang kelas jadi ini diselidiki. Efek interaksi juga terjadi dieksplorasi untuk menentukan apakah perbedaan digabungkan Bagi siswa yang berpendidikan lebih dari satu prioritas kelompok, seperti Pasifika yang juga pelajar bahasa Inggris. Perkiraan parameter dilaporkan dalam hal standar deviasi unit (SDU). Perhatikan bahwa interpretasi perbedaan SDU serupa dengan Ukuran efek Cohen (1988), yang keduanya memberikan indikator Perbedaan dalam hal standar deviasi. Namun, Cohen's d adalah biasanya dihitung sebagai perbandingan bivariat satu tingkat, jadi

Besarnya perbedaan SDU dalam kerangka bertingkat cenderung lebih kecil dan perlu ditafsirkan dengan kesadaran akan apa yang dimilikinya telah diperhitungkan.

5. Hasil

Dalam analisis awal kami untuk membaca dan menulis, kami membangunnyamodel terpisah untuk setiap tahap pengumpulan (2012 atau 2013) danalat standar (e-asTTle atau PAT). Tidak ada perbedaan yang signifikandalam perkiraan parameter di seluruh model, jadi datanyadigabungkan menjadi kumpulan data pembacaan tunggal dan satu tulisanDataset, kemudian dianalisis ulang dengan menggunakan pendekatan yang sama untuk disederhanakaninterpretasi. Hasil dari model ini disajikan di bawah ini.

5.1. Partisi varians

Dalam model tanpa syarat (lihat Tabel 2), sebagian besarVariabilitas dalam OTJs berada pada tingkat siswa untuk membaca (75%)dan menulis (78%). Hal ini tidak mengherankan mengingat akademik siswaKemampuan itu belum diperhitungkan. Sisa darivarians dipartisi cukup merata antara kelas dantingkat sekolah (12% dan 10%, untuk pembacaan, dan 13% dan

Tabel 2. Variasi dekomposisi dari model tanpa syarat untuk membaca dan menulis

12%, masing-masing, untuk penulisan). Pengelompokan sedang dan signifikanPada tingkat kelas dan sekolah menunjukkan kebutuhannyadari HLM tiga tingkat untuk kedua domain.

5.2. Hasil deskriptif

(14)

standarisasiSkor prestasi mencerminkan prestasi siswa relatif terhadapnorma nasional dalam hal SDU.Nilai rata-rata standar untuk membaca danTulisan keduanya berada di bawah norma nasional, dengan bacaansampel lebih jauh dari norma nasional (0,42 SDU; setara dengankira-kira satu tahun akademik) daripada sampel tulisan (0.19)SDU). OTJ rata-rata untuk kedua domain berada di antara 'di bawah ini

Tabel 3Statistik deskriptif dan korelasi pencapaian standar dan OTJ olehdomain standar '(kode 2) dan' standar '(dikodekan 3; M = 2.69 dalam membaca;M =2.57 secara tertulis), namun lebih rendah untuk menulis daripada untuk membaca,menunjukkan tingkat ketidaksesuaian antara standartindakan dan OTJs. Artinya, guru dianggap sedang membacaprestasi menjadi lebih dekat dengan standar dibanding prestasi menulis,sedangkan hasil uji standar menunjukkan sebaliknya.Korelasi antara dua ukuran pencapaian itusedikit lebih besar dari 0,70 untuk membaca dan menulis, keduanya secara keseluruhandi tingkat siswa, dan rata-rata di sekolah. Namun,ada banyak variasi di sekolah; tingkat sekolah korelasiberkisar antara 0.50 dan 0.94 untuk membaca, dan? 0,07dan 0,94 untuk menulis. Untuk membaca dan menulis, korelasinyanegatif di dua sekolah. Korelasi negatif mengejutkankarena kedua langkah tersebut pada dasarnya harus menilai hal yang samadomain; Terlepas dari kenyataan tindakan tersebut menilai aspek yang berbedaprestasi.

5.3. Prestasi standar

(15)

setiap tingkat tetap stabil, dengan 72-75% varianspada tingkat siswa di setiap model. Membiarkan standarPrestasi lereng bervariasi tidak secara signifikan memperbaiki model fitmenunjukkan hubungan yang cukup konsisten antara standarprestasi dan OTJ di seluruh kelas (p> 0,05 untuk membaca danpenulisan); Dengan demikian, kemiringan ini diperkirakan sebagai efek tetap pada semuaanalisis selanjutnya

5.4. Karakteristik siswa

Di tingkat siswa, kami mengeksplorasi apakah ada yang sistematis Perbedaan dalam OTJ yang ditugaskan kepada peserta didik prioritas, setelah mengendalikan perbedaan nilai prestasi standar. Sebagai ditunjukkan dalam kolom 'Karakteristik Siswa' pada Tabel 4, ini Karakteristik siswa adalah prediktor signifikan dari OTJ bahkan setelah perbedaan dalam pencapaian standar dipertanggungjawabkan. Untuk mengukur besarnya relatif di bawah atau yang terlalu tinggi

prestasi standar, ukuran efek dalam SDU berdasarkan HLM Perkiraan parameter disediakan dalam tanda kurung. Khusus untuk baik membaca dan menulis, bahkan saat prestasi standar

Bukti itu sama, betina biasanya diterima secara signifikan OTJ yang lebih tinggi daripada laki-laki (SDU ¼ 0,06 untuk membaca; SDU ¼ 0,11 untuk menulis), M? aori (SDU ¼? 0.10 untuk membaca; SDU ¼? 0,09 untuk menulis) dan Pasifika (SDU ¼? 0,16 untuk membaca; SDU ¼? 0,10 untuk

(16)

Komposisi prestasi kelas dan sekolah ditambahkan ke dalam model yang berisi standar prestasi dan siswa karakteristik untuk menguji apakah prestasi rata-rata di kelas dan sekolah menjelaskan varians tambahan dalam OTJs. Seperti yang ditunjukkan pada dua kolom paling kanan dari Tabel 4, komposisi prestasi sekolah memiliki hubungan terbalik yang signifikan dengan OTJ; yaitu, setelah mengendalikan prestasi standar dan siswa individual

Karakteristik, bila prestasi rata-rata sekolah itu Relatif tinggi, OTJ yang dibuat di sekolah itu biasanya rendah untuk siswa dengan prestasi standar yang sama dengan siswa di sekolah dengan prestasi rata-rata lebih rendah. Efek ini lebih kuat dalam membaca (SDU¼? 0.29) daripada secara tertulis (SDU¼? 0,16). Di Namun, menulis juga mengandung efek komposisi terbalik Berkaitan dengan prestasi di tingkat kelas, seperti itu seorang siswa di kelas dengan prestasi rata-rata yang relatif tinggi adalah biasanya menugaskan OTJ yang lebih rendah daripada siswa yang setara Prestasi terstandardisasi di kelas dengan prestasi rata-rata (SDU ¼? 0,17). Efek kelas ini tidak signifikan membaca (SDU ¼ 0,10). Penggabungan komposisi prestasi Variabel hanya sangat minimal mengubah standar yang ada prestasi dan karakteristik siswa. 5.6. Karakteristik sekolah

Kami juga menyelidiki sejauh mana tingkat sekolah tambahan Faktor kontekstual menjelaskan varians dalam OTJs setelah mengendalikan untuk pencapaian standar, karakteristik tingkat siswa,

dan komposisi prestasi. Faktor kontekstual ini termasuk profil sosioekonomi sekolah (rendah, menengah, atau tinggi decile), wilayah tempat sekolah itu berada, ukuran sekolah, dan proporsi siswa minoritas yang hadir di sekolah tersebut. Tidak ada Dari faktor kontekstual yang diteliti ternyata signifikan. Di konteks Selandia Baru, profil sosial ekonomi sekolah tersebut telah sering ditemukan secara signifikan terkait dengan Prestasi, tapi di sekolah studi saat ini SES tidak menjelaskannya varians tambahan, menunjukkan bahwa mengendalikan standarisasi Perbedaan prestasi sudah tercakup variabilitas terkait dengan decile, dan juga tingkat bias rata-rata serupa terlepas dari profil sosioekonomi sekolah tersebut. Interaksi Efek antara karakteristik siswa dan sekolah juga dieksplorasi Tidak ada efek interaksi yang dijelaskan yang signifikan proporsi varians dalam OTJs setelah dimasukkannya studentlevel prediktor, selanjutnya menekankan konsistensi hasil ini lintas konteks

6. Diskusi

Studi saat ini mengeksplorasi hubungan antara standar tes dan penilaian guru tentang prestasi belajar siswa di membaca dan menulis. Pertanyaan penelitian pertama menyelidiki korelasi antara kedua ukuran tersebut. Diharapkan bahwa Korelasi akan tinggi karena, berbeda dengan sebagian besar Penelitian sebelumnya, guru memiliki akses terhadap standarisasi hasil prestasi dan bisa menggunakannya jika diinginkan. Namun, korelasi hanya sedikit lebih kuat dari yang dilaporkan sebelumnya. Meta-analisis ekstensif oleh Südkamp dkk. (2012)

melaporkan korelasi rata-rata 0,63, dengan berbagai korelasi dilaporkan dalam penelitian individual (0,03-0,92). Secara keseluruhan Korelasi dalam penelitian saat ini lebih kuat (rs ¼ 0,72e0.73), namun juga dengan berbagai macam korelasi di masing-masing sekolah. Dalam

studi saat ini, lebih dari dua pertiga sekolah baca, dan hampir tiga perempat sekolah menulis memiliki korelasi di bawah 0,8, menunjukkan bahwa di kebanyakan sekolah guru tidak mengandalkan tes sebagai satu-satunya sumber bukti untuk menentukan OTJ untuk setiap siswa.

(17)

Perbedaan residual dalam penilaian guru terhadap prestasi belajar siswa sebagai fungsi karakteristik siswa tertentu, setelah mengendalikannya

perbedaan prestasi standar. Hasilnya menunjukkan bahwa Ada perbedaan signifikan dalam OTJ yang dibuat oleh para guru tentang siswa dari kelompok yang berbeda, dengan peserta didik prioritas secara sistematis menetapkan OTJ yang lebih rendah bahkan ketika distandarisasi Prestasi pun sama. Ukuran efek dari perbedaan ini mungkin pada awalnya tampak kecil. Sebagai contoh, Hattie (2008) menunjukkan bahwa a Ukuran efek intervensi kurang dari 0,4 akan dianggap kurang dari rata-rata. Namun, Hattie lebih lanjut mencatat bahwa pematangan biasanya menyumbang ukuran efek sekitar 0,25 per tahun, menunjukkan intervensi dengan efek 0,15 cukup besar jika pematangan telah dikurangkan. Ukuran efek juga biasanya dilaporkan

Sebagai perbandingan bivariat efek e biasanya dilemahkan bila lebih dari satu kovariat disertakan (mis., SES dan etnisitas dalam satu model tunggal; masing masing jauh lebih besar dari pada kapankeduanya diperkirakan bersama karena pengganggu). Ukuran efeknya

dilaporkan dalam studi saat ini mewakili varians yang unik dijelaskan oleh masing-masing variabel setelah mengendalikan perbedaan prestasi dan

membingungkan, namun tetap sebanding dengan efek intervensi dilaporkan oleh Hattie, menunjukkan efek ini tetap penting Pertanyaan ketiga kami adalah

apakah ada faktor kontekstual seperti konteks pencapaian kelas atau sekolah. Dulu menemukan bahwa SES agregat di sekolah tersebut tidak berpengaruh signifikan OTJs siswa setelah mengendalikan pencapaian standar, dan melakukan lokasi sekolah, ukuran roll, atau proporsi siswa latar belakang minoritas. Namun, profil pencapaian agregat sekolah tersebut mempengaruhi penilaian guru dalam membaca maupun menulis, dengan hasil pencapaian standar yang sama

biasanya menghasilkan penilaian guru secara keseluruhan yang lebih rendah di sekolah-sekolah yang tinggi prestasi rata-rata. Secara tertulis, ada juga yang berprestasi efek konteks di kelas, dengan siswa lagi biasanya menerima OTJ yang lebih rendah jika kelas mereka rata-rata lebih tinggi prestasi. Ini adalah temuan penting karena ini menunjukkan hal itu Penilaian guru bersifat konteks-spesifik, menunjukkan bahwa sementara Guru diminta untuk membuat penilaian ini bertentangan dengan spesifik standar, penilaian setidaknya sebagian

direferensikan. Di Kata lain, jika seorang guru bekerja dengan kelas siswa masuk yang semua siswa berada di atas standar, pengetahuan guru Kemampuan

diferensial di dalam kelas bisa menghasilkan a kecenderungan untuk melaporkan OTJ yang mencoba untuk mencerminkan diferensiasi ini. Ini 'lokalisasi' penilaian menunjukkan kompleksitas yang melekat dalam pembuatan penilaian guru yang sebanding di tingkat nasional tingkat, dan menyarankan perlunya cara

penyejajaran yang lebih baik harapan di seluruh konteks Namun, efek

kontekstualnya tidak menjelaskan mengapa hasilnya lebih rendah untuk peserta didik prioritas e inklusi Efek komposisi sedikit berpengaruh pada perkiraan

parameter untuk grup ini

6.1. Kemungkinan penjelasan dan respon

Secara internasional, tes standar sering diperdebatkan untuk

merugikanminoritas budaya (mis., Erwin & Worrell, 2012; Kim &Zabelina, 2015; McGrady & Reynolds, 2013), tapi sampai saat ini, tidakpenelitian secara

kuantitatif menentukan ada tidaknyabias budaya dalam tes standar yang

(18)

Taylor-Jorgensen, n.d .; Haitana, 2007; Mei, n.d.) dan melawan (mis.Keegan, Brown, & Hattie, 2014) gagasan bias dalam standarisasites yang digunakan di NewZealand Jika tes standar memangbias budaya, misalignment antara

penilaian gurudan hasil standar untuk pelajar prioritas terutama terkaitkarena penilaian guru biasanya disarankankesenjangan prestasi yang lebih besar untuk pelajar prioritas daripada yang potensialtes bias itu Perlu dicatat bahwa

perbedaan relatif ini sangat banyak

sesuai dengan pemahaman masyarakat yang khas dari kelompok mana siswa melakukannya dengan baik di sekolah-sekolah Selandia Baru, menunjukkan hal tersebut Hasil mungkin sebagian dijelaskan oleh bias tingkat masyarakat

terhadapnya kelompok pelajar tertentu, terutama mengingat konsistensi hasil di seluruh konteks. Penelitian sebelumnya telah menyarankan bahwa budaya

bias mungkin hadir dalam angkatan kerja pengajar, baru-baru ini Penelitian yang menyoroti bias tak sadar bertahan melawan Maori dalam sistem pendidikan (Bishop & Berryman, 2006; Blank,

Houkamau, & Kingi, 2016; Peterson, Rubie-Davies, Osborne, & Sibley, 2016). Di Selandia Baru maupun di tempat lain, mayoritas guru (79% di NZ) termasuk dalam kelompok mayoritas budaya

(Chubbuck & Zembylas, 2016; Jumlah Pendidikan, 2005). Chubbuck dan Zembylas (2016) melaporkan bahwa bias guru atau defisit dilihat Berkenaan dengan keragaman secara terus-menerus ditemukan dalam pemeriksaan penelitian disposisi guru pre-service. Bisa dikatakan bahwa beberapa siswa mungkin tampil komparatif baik dalam batasan yang relatif sempit dari standar penilaian, meski masih memiliki kinerja yang lebih rendah secara keseluruhan kurikulum. Bisa diperdebatkan, hanya guru kelas yang memilikinya wawasan yang diperlukan untuk dapat menarik pada rentang yang cukup luas bukti untuk menentukan prestasi di seluruh kurikulum. Itu kemungkinan OTJ menarik bukti yang lebih luas namun bersamaan daripada apa yang ditangkap oleh tes standar menyediakan a alasan yang dapat dibenarkan untuk perbedaan antara OTJ individual dan tingkat pencapaian yang ditunjukkan oleh uji e standar Memang, penelitian sebelumnya telah menunjukkan bahwa guru utama di New Selandia sering mempertimbangkan tes standar untuk penilaian pembelajaran permukaan (Brown, 2009). Namun, jika prioritas peserta didik secara sistematis memiliki kinerja yang lebih rendah di seluruh kurikulum penuh sekalipun ketika mereka mampu melakukan sama baiknya pada standar Tes prestasi, ini akan

memberikan bukti lebih lanjut bahwa ini siswa diliputi oleh sistem pendidikan saat ini, dan menunjukkan bahwa penilaian guru dapat diinformasikan oleh konstruk informasi yang tidak relevan Oleh karena itu, pemahaman akan sumbernya

(19)

Penelitian ekspektasi biasanya berfokus pada guru. kesan awal siswa, sedangkan penelitian penilaian biasanya Melihat evaluasi guru terhadap prestasi belajar siswa di kemudian hari tahun akademik. Ada banyak bukti baik secara

internasional, dan dalam konteks Selandia Baru, itu menunjukkan hal itu Guru biasanya memiliki harapan yang rendah terhadap peserta didik yang

terpinggirkan bahkan setelah mengendalikan prestasi (Rubie-Davies et al., 2012). Namun, penelitian penilaian guru sebagian besar berfokus pada

penyelarasan penilaian guru dengan ukuran prestasi, daripada implikasi spesifik untuk berbagai kelompok siswa, jadi kurang jelas apakah kepercayaan guru tentang

Berbagai kelompok siswa mungkin berperan dalam penilaian mereka buatlah tentang tingkat prestasi siswa. Hal itu masuk akal itu kesan awal guru terhadap siswa, yang dipengaruhi oleh Kelompok pelajar pelajar, mungkin cukup tahan lama Mereka berdampak pada penilaian guru, bahkan setelah bekerja dengan guru siswa untuk beberapa waktu Siswa dievaluasi menjadi kurang mampu dibandingkan rekan mereka biasanyamengingat lebih sedikit kesempatan

belajar, dan umumnya diberikandengan pengalaman belajar yang lebih terbatas, berkontribusi pada pemenuhan kebutuhan diri sendirinubuatan

underachievement (Rubie-Davies, 2010).Tunduk pada penilaian guru berisiko memperburuk efek iniSelanjutnya, karena setiap guru berikutnya menerima OTJ dariguru kelas sebelumnya Meski penilaian sebelumnya bisa memberiinformasi yang berguna tentang kinerja siswa yang selanjutnyaguru dapat

menggunakannya untuk menginformasikan ajaran mereka, bias yang

melekatdalam OTJ yang diberikan kepada guru baru siswa tersebut berisiko aefek peracikan (Rubie-Davies dkk, 2014), mengurangi ekspektasibahkan lebih jauh.

6.2. Implikasi untuk pengajaran dan pendidikan guru

Dengan tidak adanya proses moderasi yang koheren dan kuat,Penilaian guru yang andal dan konsisten tidak mungkin terjadi(Raphael, Au, & Goldman, 2009). Perlu dicatat bahwa hasil inimencerminkan sistem selama implementasi awal, dengan fasilitatormelaporkan bahwa moderasi bervariasi, dan, di beberapa sekolah tidak hadir. Oleh karena itu, satu respons yang mungkin akan diperbaiki moderasi, misalnya, dengan memfasilitasi diskusi di dalam dan antara sekolah tentang bukti apa yang akan dipertimbangkan diperlukan bagi siswa untuk memenuhi setiap tingkat OTJ. Sebagai tambahan, kami percaya bahwa pedoman yang jelas harus diberikan ke semua sekolah

dan guru tentang cara moderat secara efektif. Moderasi yang efektif bergantung pada berbagi dan mendiskusikan bukti di tempat yang tinggi kepercayaan

lingkungan (Wyatt-Smith, Klenowski, & Gunn, 2010), yang mana tetap menjadi pengecualian bukan norma. Kementerian Pendidikan sudah menyediakan

pedoman moderasi (lihat http: // assessment.tki.org.nz/Moderation), namun efek komposisi ditemukan tentang prestasi rata-rata di setiap sekolah yang

(20)

kerja di sekitar pengaturan OTJs dikembangkan lebih jauh, perbedaan ini

seharusnya mengurangi, atau menghilang. Memang di tahun 2015 Kementerian Pendidikan merilis alat opsional yang disebut Progress and Consistency

Tool(PaCT; https://pactinfo.education.govt.nz/), yang menyediakan a kerangka kerja untuk mendukung guru membuat penilaian yang lebih konsisten, Meskipun serapannya relatif rendah, dengan sekitar 15% sekolah memilih secara nasional selama tahun pertama (Gerritsen,

2016). Namun, jika bias guru memang penyebab hasilnya dijelaskan dalam makalah ini, prosesnya lebih kokoh yang memastikan Membuat informasi yang tidak relevan dikurangi dari OTJs

tidak cukup dalam dan dari dirinya sendiri, karena tidak akan membahas yang mendasarinya

bias Biases dilihat sebagai respon yang dalam, kognitif dan emosional itu Orang memiliki dan dikatakan bahwa pelatihan kompetensi budaya Memusatkan perhatian pada perbedaan mungkin sedikit berpengaruh (Blank et al., 2016). Untuk mengubah disposisi seseorang telah digambarkan sebagai "seumur hidup perjalanan transformasi "(Nieto, 2000, hal 183). Studi terbaru tentang

intervensi untuk mengembangkan disposisi keadilan sosial dalam pra-layanan guru terus menunjukkan hasil yang beragam (Chubbuck & Zembylas, 2016). Lai et al. (2014) melakukan meta analisis terutama berbasis di AS studi,

menunjukkan bahwa hanya delapan dari tujuh belas intervensi

efektif mengurangi bias. Studi yang efektif biasanya menggunakan formulir intervensi kontra-stereotip di mana peserta berada prima untuk memasangkan karakteristik positif dengan kelompok yang biasanya tunduk pada bias Para peneliti juga menemukan bahwa peningkatan pemikiran kritis partisipan dan penalaran moral cenderung membantukurangi bias Di Selandia Baru beberapa penelitian sebelumnya menunjukkanharapan guru tentang subkelompok tertentu dapat diubah

melalui intervensi pembelajaran profesional yang ditargetkan (Rubie-Davies et al., 2015). Namun, konsistensi bias lintas konteks menyarankan agar

pengembangan profesional tidak dibatasi konteks spesifik dan tidak jelas apakah harapan guru meningkat sebenarnya akan diterjemahkan menjadi bias

berkurang pada guru penilaian. Program pendidikan guru awal akan memberikan a

jalan potensial untuk pengiriman lebih luas, tapi jelas ada kebutuhan untuk penelitian lebih lanjut di bidang ini.

6.3. Keterbatasan

Meskipun kami percaya bahwa hasil ini melukiskan gambaran yang jelas tentang sebuahmendasari bias sistematis dalam pendidikan Selandia BaruSistem, ada beberapa keterbatasan dan penjelasan alternatifyang harus diperhatikan Secara khusus, kurangnya penelitian sebelumnyatentang OTJs berarti statistik

keandalan dan keabsahannya tidaktersedia, sehingga sulit untuk memastikan dengan tepat ukuran OTJ.Studi saat ini memberikan beberapa wawasan tentang faktor-faktor yang dimilikisebuah efek pada OTJs, namun dibutuhkan lebih banyak penelitian. Meski sampelnya

(21)

prioritas pelajarkategori yang digunakan adalah kategori standar yang digunakan oleh KementerianPendidikan, tapi mungkin menutupi beberapa pola dasar untuk subkelompokdalam kategori ini. Misalnya, kategori Pasifika adalah aIstilah

payung yang mencakup berbagai macam latar belakang (NZ bornketurunan Pasifik, dan juga mereka yang lahir di kepulauan Pasifik; misalnya.,Tonga, Kaledonia Baru, Samoa, Fiji [India dan pribumi], di antaranyalainnya).

Penggunaan indikator SES tingkat sekolah agregatKeterbatasan lain, tapi karena sekolah-sekolah Selandia Baru tidak mengumpulkaninformasi SES tingkat

individu, kami dibatasi pada tingkat sekolahindikator. 6.4. Kesimpulan

Hasil kami menunjukkan bahwa peserta didik prioritas diterima secara sistematis mPenilaian guru lebih rendah dari siswa lainnya pada tahun 2012 dan 2013, meski prestasi standar mereka pun sama.

Namun, tidak mungkin untuk memastikan penyebabnya perbedaan penilaian guru untuk kelompok siswa tertentu tanpa penelitian lebih lanjut. Salah satu penjelasannya adalah guru bias terhadap peserta didik prioritas. Namun, bisa juga begitu Tes prestasi standar bias positif, atau itu

fokus sempit tes standar mengukur aspek Prestasi berbeda dari yang diukur dengan penilaian guru.

Mungkin juga ada kemungkinan penyebab lain yang belum kita dapatkan dianggap. Penelitian selanjutnya harus menyelidiki penjelasan alternatif untuk hasil ini untuk mengembangkan pemahaman yang lebih baik tentang caranya guru membuat OTJ, dan mengapa penilaian ini menunjukkan lebih besar Kesenjangan prestasi dibanding tes prestasi standar. Melepaskan

Bias dari penilaian guru harus menjadi prioritas dalam pendidikan. Semua siswa berhak mendapatkan kesempatan pendidikan yang setara dan Penghapusan bias guru akan menjadi salah satu cara untuk mengurangi pelepasan struktur sosial dan memungkinkan semua siswa untuk memiliki kesempatan untuk sukses dalam sistem pendidikan. Ucapan Terima Kasih

Kami ingin mengakui Konsorsium untuk Pembelajaran Profesional (Evaluation Associates and The University dari Auckland's Team Solutions) yang membuat penelitian ini dimungkinkan oleh

mempercayai kita untuk mengeksplorasi dan mengembangkan pemahaman tentang data berkumpul selama proyek pembelajaran profesional mereka. Dedikasinya Setiap fasilitator sangat dikagumi, dan bekal konsisten Data berkualitas tinggi sangat kami hargai. Kami juga mengakui Kementerian

Pendidikan Selandia Baru untuk mendanai pekerjaan Konsorsium untuk Belajar Profesional.