Kesahan Konstruk Dan Kebolehpercayaan Reflective Thinking Questionnaire (Rtq): Satu Kajian Rintis

(1)

501

Kesahan Konstruk Dan Kebolehpercayaan Reflective Thinking Questionnaire (Rtq): Satu Kajian Rintis

Juliana Mohd Janjang Zolkepeli Haron

Universiti Kebangsaan Malaysia

ABSTRACT

Reflective thinking skills is an important aspect in the face of 21st century learning in addition to being a priority in efforts to elevate the teaching profession. Previous studies have found that reflective thinking can be improved through action research conducted by teachers from teaching courses again. Therefore, this study was conducted to determine the validity and reliability of the instrument Reflective Thinking Questionnaire (RTQ) using Rasch Measurement Model (RMM) through application Winsteps 3.73.0. RTQ instrument has 16 items was administered to 134 teachers of novices, but the only response of the 128 respondents are eligible to be considered for analysis. The findings show that there are some items (A1, A5, A9 and A13) have the infit MNSQ and outfit MNSQ exceeds the accepted range of 1.5, which indicates that an item is not productive to measure and there are people who do not understand these items. The size of the item difficulty showed the existence of large gap (2.55). However, based on the findings of the empirical of the principal components analysis, the raw variance explained (74.6%) of these instrument was adequate unidimensional and indicates that these items have good uniformity and measure the level of reflective thinking. Person reliability (0.80) and item reliability (0.99) also is accepted by the person separation (2.00) and item (13.43) index which is capable of distinguishing the respondents as well as to confirm the item difficulty hierarchy of instruments. The results showed that RMM has detected a weakness of this instrument although this instrument has been tested for validity and reliability in previous studies using Classical Test Theory (CTT). Thus, this study has good implications to the measurement field with regard to the item analysis as a complementary to CTT. In conclusion, this study was determined the construct validity and reliability of this instrument and recommended further study carried out for the renovation or addition of items to improve these vulnerabilities before the item was dropped so that it was decided to measure the level of reflective thinking can be implemented more thoroughly.

Keywords: Reflective Thinking, Validity, Reliability, Rasch Measurement Model

Pengenalan

Kemahiran berfikir reflektif merupakan satu aspek penting dalam menghadapi pembelajaran abad ke-21 (Kapranos, 2007; Santos & Stuart, 2003), justeru pemikiran ini turut menjadi keutamaan dalam usaha mentransformasikan dan memartabatkan profesion perguruan. Melalui pemikiran reflektif, guru dapat meningkatkan profesionalisme diri dari segi keilmuan, keterampilan dan kemahiran serta menjadi guru yang lebih berfikir (Boon & Wee, 2005; Boon, 2005; Kim, 2005). Baron (1981) dan Boon (2005) telah mengutarakan bahawa John Dewey telah menjelaskan amalan refleksi sebagai asas bagi proses membuat keputusan dalam proses pengajaran. Namun, sejauh manakah guru-guru di Malaysia mempunyai kemahiran berfikir reflektif dalam mendepani cabaran pengajaran dewasa ini? Adakah pelbagai program, pengisian kursus dan latihan keguruan yang diikuti telah melahirkan guru yang mempunyai tahap pemikiran reflektif yang tinggi setanding guru antarabangsa?

Kajian terdahulu mendapati bahawa pemikiran reflektif boleh ditingkatkan menerusi penyelidikan tindakan tetapi pemikiran tersebut masih berada di tahap sederhana dan praktikal yang

(2)

502

mana perlu dipertingkatkan lagi (Aizan Yaacob, Walters, Ruzlan Md Ali, Sarimah Shaik Abdullah, & Walters, 2014; Madzniyah Md. Jaafar, 2012; Shamsiah Md. Nasir & Nil Farakh Sulaiman, 2015). Abou Baker El-Dib (2007) yang mengukur pemikiran reflektif guru melalui penulisan laporan penyelidikan tindakan mencadangkan perlunya kajian lain untuk mengukur tahap pemikiran reflektif menggunakan instrumen lain yang tidak hanya mengukur berdasarkan penulisan laporan sahaja. Justeru, pengkaji telah menyarankan penggunaan instrumen Reflective Thinking Questionnaire (RTQ) yang dibina oleh Kember et al. (2000) sebagai alat ukur kendiri bagi mengukur seterusnya menjadi panduan dalam meningkatkan tahap pemikiran reflektif guru-guru di Malaysia.

Walau bagaimanapun, instrumen ini dibangunkan di luar negara, ini menyebabkan wujudnya isu cross-cultural kerana persekitaran pendidikan yang berbeza. Tidak adil jika kita mengukur kemampuan kemahiran berfikir berdasarkan standard pihak lain sebelum diperiksa dan disahkan mengikut konteks budaya di Malaysia (Akbariah Mohd Mahdzir, 2009; Rosselli & Ardila, 2003). Secara bukti empirikal, adakah instrumen yang disarankan ini bersesuaian dengan konteks kebolehan individu di Malaysia yang berlainan budaya dan kumpulan? Justeru, instrumen ini perlu diperiksa kesahan dan kebolehpercayaannya terlebih dahulu kerana sesuatu instrumen perlu mempunyai kesahan dahulu sebelum ianya dianggap boleh dipercayai untuk digunakan dalam kajian (Ghazali Darusalam & Sufean Hussin, 2016).

Walaupun terdapat kajian-kajian lalu (Basol & Gencel, 2013; Lethbridge, Andrusyszyn, & Iwasiw, 2013; Lucas & Tan, 2006) telah memeriksa kesahan dan kebolehpercayaan instrumen ini, namun ianya hanya mengaplikasikan Teori Ujian Klasik (TUK) yang mana telah dikenal pasti mempunyai beberapa limitasi yang sering menjadi pertikaian ahli pengukuran masa kini (Hambleton, Swaminathan, & Rogers, 1991). Antara limitasi tersebut adalah skor ujian bergantung item, statistik item bergantung sampel, tiada maklumat kebarangkalian mengenai bagaimana sampel menunjukkan prestasi pada item ujian tertentu dan andaian ralat pengukuran yang sama untuk semua responden (Hambleton et al., 1991; Higgins, Ricketts, & Fell, 2010; Kohli, Koran, & Henn, 2014). Kesemua limitasi tersebut boleh diatasi oleh Teori Respons Item (TRI) yang mengetengahkan ciri item yang tidak bergantung kumpulan atau sampel, skor berupaya menghuraikan kebolehan individu yang tidak bergantung ujian, model menjelaskan aras item melebihi aras ujian, model yang tidak memerlukan ujian selari semata-mata untuk mengukur kebolehpercayaan dan model yang dapat memberikan ukuran yang tepat bagi setiap skor keupayaan tersebut. Maka, TRI merupakan kaedah alternatif yang mampu meningkatkan kualiti dalam menentukan kesahan dan kebolehpercayaan instrumen kerana teori ini mengutamakan analisis item dan respon individu dalam menentukan kesahan dan kebolehpercayaan (Anuar Din & Siti Ajar Md. Noh, 2014; Tavakol & Dennick, 2011). Kajian lalu (Lethbridge et al., 2013) turut mendapati beberapa item yang mempunyai path coefficient rendah dan lemah dalam konstruk Tindakan Lazim dan Refleksi.

Oleh itu, pengkaji menggunakan Model Pengukuran Rasch (MPR) yang dibangunkan daripada TRI bagi menjawab objektif kajian ini. Ini kerana model ini menawarkan peluang yang besar dalam memeriksa ciri-ciri psikometrik sesuatu instrumen (Bond & Fox, 2001, 2015). Model ini turut mempertimbangkan aspek kebolehan responden dan kesukaran item. Melalui model ini, kesahan konstruk dan kebolehpercayaan ditentukan bersesuaian dengan objektif kajian ini dijalankan iaitu untuk:

1) Menentukan kesahan konstruk setiap konstruk RTQ dengan menggunakan MPR. 2) Menentukan kebolehpercayaan setiap konstruk RTQ dengan menggunakan MPR.

Kajian Literature

Penentuan kesahan dan kebolehpercayaan instrumen ini menggunakan MPR yang diasaskan oleh George Rasch pada tahun 1960. Model ini adalah salah satu model berasaskan TRI yang gemar digunakan oleh kebanyakan pengkaji untuk analisis melibatkan kajian kuantitatif (Baker, 2001). Melalui model ini, tahap kebolehan individu boleh dijangka dengan mengandaikan bahawa susunan tahap kesukaran item dan susunan tahap kebolehan responden terletak pada satu lajur skala linear

(3)

503

yang sama (Bond & Fox, 2001). Justeru, ramalan seterusnya tentang item yang boleh dijawab oleh responden lain yang berkebolehan dalam lingkungan sampel kajian dapat dijangka dan ditentukan dengan mudah. Wright dan Stone (1979) berpendapat bahawa model ini turut menepati keperluan pengukuran asas yang mana ianya unik kerana mampu mengubah skor mentah yang sering dipengaruhi oleh item dan ciri-ciri sampel kepada skor interval iaitu logit berdasarkan kebarangkalian persetujuan responden dengan selang jarak yang sama melalui proses kaliberasi.

MPR juga dikatakan mampu menapis item yang boleh menjejaskan kualiti dan kejituan pengukuran dengan menghasilkan instrumen yang sah dalam mengukur apa yang sepatutnya diukur (Azrilah Abdul Aziz, Mohd Saidfudin Masodi, & Azami Zaharim, 2013). Maka, kelebihannya yang mengambil kira analisis terhadap item menjadikannya faktor utama dipilih selain daripada sifatnya yang tidak bergantung sampel. Model ini juga amat bersesuaian digunakan dalam menentukan kesahan dan kebolehpercayaan instrumen yang mempunyai skor berbentuk skala Likert, dikotomous dan politomus (Swaminathan & Rogers, 1990) kerana MPR mampu menukarkan data yang dikumpulkan melalui skala Likert kepada data interval (Rosseni Din et al., 2009). Berdasarkan aplikasi MPR, analisis statistik kesesuaian yang dijalankan dapat menentukan kesahan dan kebolehpercayaan bagi konstruk dalam instrumen dianalisis secara numerikal.

Kesahan dan kebolehpercayaan sesuatu instrumen merupakan perkara penting untuk menyokong kejituan soal selidik yang digunakan dalam kajian (Ghazali Darusalam & Sufean Hussin, 2016; Rosseni Din et al., 2009). Aspek kesahan merujuk kepada kejituan sesuatu alat ukur mengukur perkara atau apa yang sepatutnya diukur (Siti Rahayah Ariffin, 2008; Tuckman, 1999). Kesahan boleh terdiri daripada kesahan kandungan, kesahan muka dan kesahan konstruk. Namun demikian, kajian ini hanya menumpukan kepada penentuan kesahan konstruk menggunakan aplikasi statistik. Bond dan Fox (2015) mencadangkan analisis polariti item iaitu PTMEA Corr sebagai langkah pengesanan awal kesahan konstruk sesuatu instrumen. Kesahan konstruk yang tinggi menunjukkan item-item dalam konstruk tersebut berjaya mentafsir konstruk yang diukur dan adil dalam menyediakan pelbagai tahap kesukaran kepada semua kumpulan responden yang terlibat (Bond & Fox, 2015; John M. Linacre, 2012a).

Kebolehpercayaan pula adalah ketekalan dalaman iaitu untuk menjelaskan sejauh mana skor-skor dalam setiap item yang diperoleh adalah konsisten atau stabil apabila diuji berulang kali (Barbara G. Tabachnick & Linda S Fidell, 2007; Ghazali Darusalam & Sufean Hussin, 2016). Nilai kebolehpercayaan di ukur dalam julat 0 hingga 1 (Hair, Black, Babin, & Anderson, 1998). Bond dan Fox (2001) telah menjelaskan bahawa dalam MPR kebolehpercayaan merujuk kepada kebolehpercayaan individu dan item serta indeks pengasingan individu dan item. Kualiti item yang tinggi sepatutnya mampu mengasingkan individu dengan kuasa pemisahan yang baik. Kebolehpercayaan item yang tinggi pula menunjukkan kecukupan item untuk mengukur apa yang sepatutnya diukur (Azrilah Abdul Aziz et al., 2013).

METODOLOGI

Kajian ini menggunakan pendekatan kuantitatif untuk tujuan penentuan kesahan dan kebolehpercayaan item-item bagi instrumen Reflective Thinking Questionnaire (RTQ) oleh (Kember et al., 2000). Ghazali Darusalam dan Sufean Hussin (2016) berpendapat bahawa pendekatan kuantitatif adalah satu pendekatan kajian yang bersifat numerikal dan menggunakan instrumen soal selidik bagi mengukur pemboleh ubah kajian melalui huraian statistik. Instrumen ini mempunyai dua bahagian iaitu Bahagian A dan Bahagian B. Bahagian A menyatakan tentang demografi responden kajian manakala Bahagian B pula menyatakan tentang tahap pemikiran reflektif. Sebanyak 16 item positif terdapat dalam instrumen ini mewakili empat konstruk tahap pemikiran reflektif iaitu Tindakan Lazim, Pemahaman, Refleksi dan Refleksi Kritikal.

Instrumen ini menggunakan skala likert 5 mata dengan skor 1 - Sangat Tidak Setuju (STS), 2 - Tidak Setuju (TS), 3 – Tidak Pasti (TP), 4 – Setuju (S) dan 5 – Sangat Setuju (SS) sebagaimana yang dicadangkan oleh Kember et al (2000). Setiap konstruk dalam instrumen ini mengandungi empat item yang mempunyai ciri konstruk yang sama. Kaedah terjemahan back to back telah dijalankan

(4)

504

terhadap instrumen ini supaya ini dapat membantu proses terjemahan cenderung kepada versi bahasa asal seterusnya digunakan dalam pengumpulan data sebenar (Brislin, 1986).

Kajian ini dijalankan terhadap 134 orang guru novis di sekolah-sekolah di Malaysia yang telah mengikuti kursus penyelidikan tindakan dalam latihan perguruan. Namun, hanya seramai 128 orang terpilih dalam penganalisisan data setelah mengambil kira aspek outliers. Bilangan ini adalah memenuhi cadangan Linacre (1994). Dapatan kajian dianalisis menggunakan aplikasi Winstep 3.73.0 untuk menentukan kesahan konstruk dan kebolehpercayaan instrumen tersebut. Pengkaji memeriksa kesahan konstruk dan kebolehpercayaan instrumen ini kerana konsep kebolehpercayaan dan kesahan adalah keutamaan bagi sesuatu instrumen atau soal selidik (Norlia T. Goolamally, 2010). Selain itu, semua item dalam instrumen soal selidik perlu disahkan terlebih dahulu sebelum dipercayai untuk digunakan terhadap sampel kajian (Ghazali Darusalam & Sufean Hussin, 2016).

Kesahan konstruk melalui MPR boleh ditentukan berdasarkan polariti item, kesepadanan item (infit dan outfit), kesukaran item serta sifat unidimensi item. Polariti item ditentukan berdasarkan nilai point measure correlation (PTMEA Corr). Nilai-nilai positif menunjukkan item-item berada dalam konstruk yang secara selari dan mengukur satu konstruk yang sama. Nilai-nilai negatif menunjukkan item tersebut tidak menyumbang kepada konstruk yang sama dan bercanggah dengan konstruk (John M. Linacre, 2012b) menyebabkan keperluan kajian semula ke atas item tersebut sama ada dibaiki atau dibuang. Nilai PTMEA Corr yang diterima melebihi 0.30 kerana jika kurang daripada nilai tersebut item menjadi lemah (Nunnally & Bernstein, 1994).

Kesepadanan item (infit dan outfit) pula ditentukan berdasarkan nilai infit dan outfit Mean Square (MNSQ) di mana nilai yang ideal dicadangkan adalah 1.0 mengikut spesifikasi MPR. Namun, julat nilai MNSQ yang sesuai untuk menganalisis kesahan adalah di antara 0.5 hingga 1.5 (Bond & Fox, 2001, 2015). Nilai MNSQ yang melebihi 1.5 (underfit) menunjukkan item tidak homogen manakala bagi nilai MNSQ kurang daripada 0.5 (overfit) menunjukkan item tersebut terlalu mudah dijangka.

Kesukaran item pula ditentukan berdasarkan statistik pengukuran item (item measure) iaitu berdasarkan bacaan nilai logit. Item yang mempunyai aras kesukaran item yang tinggi mempunyai nilai logit yang besar manakala item yang mempunyai aras kesukaran rendah mempunyai nilai logit yang kecil. Seterusnya pengkaji mengkaji unidimensi item berdasarkan analisis item dimensionality menggunakan analisis komponen utama (Principle Component Analysis). Nilai peratusan raw variance melebihi 20% adalah mencukupi manakala melebihi 60% adalah sangat baik sifat unidimensi item-item tersebut (Bambang Sumintono & Wahyu Widhiarso, 2014).

Kebolehpercayaan pula ditentukan dari segi kebolehpercayaan item dan individu serta indeks pemisahan (separation) item dan individu. Nilai indeks kebolehpercayaan item merupakan anggaran ketekalan susunan item pada skala logit apabila ditadbir berulang kali kepada kumpulan responden yang mempunyai kebolehan yang hampir sama. Nilai kebolehpercayaan individu pula bermaksud andaian kebolehan individu dalam sampel yang terlibat tekal walaupun diberi set item yang berlainan tetapi masih mengukur konstruk yang sama (John M. Linacre, 2012b). Nilai kebolehpercayaan adalah di antara . Bond dan Fox (2015) mencadangkan nilai kebolehpercayaan lebih daripada 0.8 kuat untuk diterima, manakala nilai antara 0.6 hingga 0.8 diterima manakala nilai kurang daripada 0.6 adalah tidak diterima. Manakala Bambang Sumintono dan Wahyu Widhiarso (2014) mencadangkan nilai yang diterima adalah melebihi 0.67.

Jadual 1 Ringkasan prosedur analisis kesahan dan kebolehpercayaan

Aspek Tujuan Analisis Prosedur / Program Untuk Analisis

Penentuan kesahan instrumen

Kesahan Konstruk Polariti item Infit dan Outfit Kesukaran item unidimensi

(5)

505

Penentuan kebolehpercayaan

instrumen

Kebolehpercayaan kebolehpercayaan item kebolehpercayaan individu indeks pemisahan individu indeks pemisahan item

Indeks pemisahan pula merupakan indeks yang mengelaskan individu atau item kepada beberapa kumpulan. Indeks pemisahan individu digunakan untuk mengelaskan kumpulan individu sampel yang terlibat. Indeks pemisahan individu yang rendah (<2) adalah setara dengan kebolehpercayaan individu <0.8 iaitu menunjukkan bahawa instrumen tersebut mungkin tidak cukup sensitif untuk membezakan antara individu yang berprestasi tinggi dan rendah. Ini bermakna lebih banyak item mungkin diperlukan. Indeks pemisahan item pula digunakan untuk mengesahkan hierarki item. Indeks pemisahan item yang rendah (<3) adalah setara dengan kebolehpercayaan item <0.9 iaitu menunjukkan bahawa bilangan sampel individu tidak cukup besar untuk mengesahkan hierarki kesukaran item instrumen. Jadual 1 menunjukkan ringkasan prosedur analisis kesahan dan kebolehpercayaan.

DAPATAN KAJIAN DAN PERBINCANGAN Objektif 1: Kesahan Konstruk RTQ

Kesahan konstruk bagi sesuatu soal selidik perlu dirujuk kepada polariti item, nilai kesepadanan item (infit dan outfit), kesukaran item serta sifat unidimensi item (John M. Linacre, 2012a). Polariti item ditentukan berdasarkan nilai point measure correlation (PTMEA Corr). Nilai kesepadanan item (infit dan outfit) pula ditentukan berdasarkan nilai indeks Mean Square (MNSQ). Manakala nilai kesukaran item ditentukan berdasarkan bacaan nilai logit.

Berdasarkan Jadual 2, polariti item melalui nilai PTMEA Corr adalah di antara 0.14 hingga 0.76. Ini menunjukkan kesemua nilai ini adalah dalam julat yang diterima kecuali bagi item A1 dan A13 (Bambang Sumintono & Wahyu Widhiarso, 2014). Kesemua nilai PTMEA Corr yang positif menunjukkan bahawa item-item bergerak selari ke arah mengukur satu konstruk yang sama iaitu tahap pemikiran reflektif.

Jadual 2 Item Measure Order bagi Instrumen Pemikiran Reflektif

--- |ENTRY TOTAL TOTAL |NUMBER SCORE |---+---+---+---+---+---| | 1 177 128 5.17 | 5 225 128 3.97 | 13 278 128 3.01 | 9 322 128 2.33 | 8 479 128 -.22 | 3 485 128 -.34 | 16 497 128 -.60 | 14 502 128 -.71 | 12 510 128 -.90 | 4 521 128 -1.16 | 11 521 128 -1.16 | 7 532 128 -1.43 | 15 538 128 -1.58 | 10 542 128 -1.69 | 2 560 128 -2.18 | 6 572 128 -2.53 |---+---+---+---+---+---| | MEAN 453.8 128.0 | S.D. 122.8 --- MODEL| INFIT | OUTFIT |PT-MEASURE |EXACT MATCH| | COUNT MEASURE S.E. |MNSQ ZSTD|MNSQ ZSTD|CORR. EXP.| OBS% EXP%| Item | .18|1.73 4.3|1.85 3.6| .14 .42| 51.6 68.6| A1 | .14|1.63 4.1|1.59 3.7| .32 .52| 51.6 58.9| A5 | .13|1.64 4.5|1.69 4.7| .21 .58| 37.5 52.9| A13 | .12|1.63 4.7|1.58 4.3| .34 .60| 32.0 49.5| A9 | .14| .88 -.9| .94 -.4| .58 .58| 68.0 62.5| D8 | .15|1.38 2.5|1.58 3.5| .48 .58| 57.0 62.6| C3 | .15| .73 -2.1| .73 -2.0| .58 .57| 72.7 63.8| D16 | .15| .97 -.2|1.03 .3| .60 .56| 71.9 64.0| B14 | .15| .61 -3.2| .65 -2.8| .74 .55| 71.9 64.0| D12 | .16| .67 -2.8| .72 -2.3| .70 .54| 71.9 63.7| D4 | .16| .83 -1.3| .87 -1.0| .68 .54| 70.3 63.7| C11 | .16| .62 -3.4| .64 -3.2| .73 .53| 70.3 63.2| C7 | .16| .55 -4.2| .58 -4.0| .74 .52| 78.1 62.3| C15 | .16| .70 -2.7| .71 -2.6| .71 .52| 78.1 62.3| B10 | .17| .63 -3.6| .63 -3.7| .73 .50| 79.7 63.4| B2 | .18| .79 -1.9| .72 -2.6| .76 .49| 75.8 65.3| B6 | .00 .15|1.00 -.4|1.03 -.3| | 64.9 61.9| | .0 2.24 .01| .43 3.2| .44 3.1| | 14.2 4.5| |

Jadual 2 turut menerangkan tentang kesepadanan item (infit dan outfit) berdasarkan nilai infit dan outfit Mean Square (MNSQ). Julat nilai infit MNSQ berada di antara 0.55 hingga 1.73, manakala

(6)

506

julat nilai outfit MNSQ berada di antara 0.58 hingga 1.85. Ini menunjukkan kebanyakan item berada pada julat MNSQ yang diterima (Bond & Fox, 2001, 2015) kecuali bagi item A1, A5, A9 dan A13 yang mempunyai nilai infit MNSQ dan outfit MNSQ melebihi julat yang diterima. Nilai MNSQ melebihi 1.5 menunjukkan item tidak produktif kepada pengukuran (Linarce, 2002). Ia juga menunjukkan terdapat responden yang tidak memahami item-item tersebut (Smith, 1996). Walau bagaimanapun, Wright dan Stone (1979) mencadangkan agar item tersebut perlu dikaji dan diperbaiki dahulu sebelum diputuskan untuk digugurkan daripada instrumen.

Jadual 3 pula menjelaskan dengan terperinci ukuran kesukaran item berdasarkan bacaan nilai logit bagi kesemua item. Item A1 (5.17) merupakan item yang paling sukar dipersetujui manakala item B6 (-2.53) mempunyai aras kesukaran rendah atau item yang mudah dipersetujui. Ini menunjukkan kesemua item dalam instrumen ini mempunyai aras kesukaran yang berbeza bagi mengukur tahap pemikiran reflektif kecuali item D4 dan C11 iaitu pada nilai logit -1.16. Walau bagaimanapun, item-item ini tidak berada dalam konstruk yang sama dan tidak menunjukkan terdapat item yang bertindih. Namun demikian, perbezaan nilai logit yang tinggi (2.55) antara item A9 dengan item D8 menunjukkan wujud lompang yang besar akibat ketiadaan item antara aras kesukaran tersebut.

Jadual 3 Hierarki Item Mengikut Skor Logit Bagi Instrumen Tahap Pemikiran Reflektif

--- |ENTRY TOTAL TOTAL MODEL| INFIT | OUTFIT |PT-MEASURE |EXACT MATCH| | |NUMBER SCORE COUNT MEASURE S.E. |MNSQ ZSTD|MNSQ ZSTD|CORR. EXP.| OBS% EXP%| Item | |---+---+---+---+---+---| | 1 177 128 5.17 .18|1.73 4.3|1.85 3.6| .14 .42| 51.6 68.6| A1 | | 5 225 128 3.97 .14|1.63 4.1|1.59 3.7| .32 .52| 51.6 58.9| A5 | | 13 278 128 3.01 .13|1.64 4.5|1.69 4.7| .21 .58| 37.5 52.9| A13 | | 9 322 128 2.33 .12|1.63 4.7|1.58 4.3| .34 .60| 32.0 49.5| A9 | | 8 479 128 -.22 .14| .88 -.9| .94 -.4| .58 .58| 68.0 62.5| D8 | | 3 485 128 -.34 .15|1.38 2.5|1.58 3.5| .48 .58| 57.0 62.6| C3 | | 16 497 128 -.60 .15| .73 -2.1| .73 -2.0| .58 .57| 72.7 63.8| D16 | | 14 502 128 -.71 .15| .97 -.2|1.03 .3| .60 .56| 71.9 64.0| B14 | | 12 510 128 -.90 .15| .61 -3.2| .65 -2.8| .74 .55| 71.9 64.0| D12 | | 4 521 128 -1.16 .16| .67 -2.8| .72 -2.3| .70 .54| 71.9 63.7| D4 | | 11 521 128 -1.16 .16| .83 -1.3| .87 -1.0| .68 .54| 70.3 63.7| C11 | | 7 532 128 -1.43 .16| .62 -3.4| .64 -3.2| .73 .53| 70.3 63.2| C7 | | 15 538 128 -1.58 .16| .55 -4.2| .58 -4.0| .74 .52| 78.1 62.3| C15 | | 10 542 128 -1.69 .16| .70 -2.7| .71 -2.6| .71 .52| 78.1 62.3| B10 | | 2 560 128 -2.18 .17| .63 -3.6| .63 -3.7| .73 .50| 79.7 63.4| B2 | | 6 572 128 -2.53 .18| .79 -1.9| .72 -2.6| .76 .49| 75.8 65.3| B6 | |---+---+---+---+---+---| | MEAN 453.8 128.0 .00 .15|1.00 -.4|1.03 -.3| | 64.9 61.9| | | S.D. 122.8 .0 2.24 .01| .43 3.2| .44 3.1| | 14.2 4.5| | --- Jadual 4 pula menunjukkan dapatan analisis item dimensionality menggunakan analisis komponen utama (Principle Component Analysis). Nilai peratusan varians mentah dijelaskan oleh pengukuran bagi instrumen ini adalah mencukupi sifat unidimensi item-item tersebut (Bambang Sumintono & Wahyu Widhiarso, 2014). Peratusan tersebut juga memenuhi keperluan minimum MPR iaitu sebanyak 40 peratus (Azrilah Abdul Aziz et al., 2013). Ini menunjukkan item dalam konstruk ini mempunyai keseragaman yang baik dan mengukur tahap pemikiran reflektif.

Jadual 4 Analisis Komponen Prinsipal Bagi Setiap Konstruk Tahap Pemikiran Reflekti

Item Dimensionality Empirikal (%) Model (%)

Jumlah varians mentah dalam cerapan 100 100

Varians mentah dijelaskan oleh pengukuran 74.6 75.8 Varians mentah dijelaskan oleh responden 14.7 14.9

Varians mentah dijelaskan oleh item 59.9 60.9

(7)

507

Secara keseluruhannya, dari aspek kesahan konstruk, kewujudan lompang dan nilai MNSQ di luar julat yang diterima bagi beberapa item menyebabkan instrumen ini memerlukan penelitian yang terperinci sebelum digunakan untuk mengukur tahap pemikiran reflektif responden sama ada membuat pengubahsuaian item atau penambahan item baru. Namun demikian, item-item yang terdapat dalam instrumen ini masih mengukur apa yang sepatutnya diukur dan memenuhi tahap kebolehan responden berdasarkan nilai min skor logit responden yang diperoleh.

Objektif 2: Kebolehpercayaan Setiap Konstruk RTQ.

Jadual 5 menunjukkan ringkasan statistik yang mengukur indeks kebolehpercayaan dan indeks pemisahan bagi item dan individu. Nilai kebolehpercayaan item bagi setiap konstruk adalah tinggi dan kuat untuk diterima kerana melebihi 0.80 (Bond & Fox, 2015). Ini menunjukkan item-item ini mempunyai ketekalan apabila ditadbir berulang kali kepada kumpulan responden lain tetapi mempunyai kebolehan yang hampir sama. Kebolehpercayaan item yang tinggi juga menunjukkan kecukupan item untuk mengukur apa yang sepatutnya diukur (Azrilah Abdul Aziz et al., 2013).

Jadual 5 Kebolehpercayaan Item dan Individu RTQ

Pengukuran Item Pengukuran Individu

Kebolehpercayaan Indeks Pengasingan Kebolehpercayaan Indeks Pengasingan

0.99 13.43 0.80 2.00

Jadual 5 turut mendapati nilai kebolehpercayaan individu bagi instrumen ini iaitu 0.80 iaitu nilai yang diterima kerana melebihi 0.67 (Bambang Sumintono & Wahyu Widhiarso, 2014). Kebolehpercayaan individu bagi data politomus 5 mata adalah sangat bersamaan dengan nilai Cronbach Alpha dalam TUK (Chien, 2016; J. M. Linacre, 1997). Ini bermaksud kebolehan individu bagi kesemua konstruk adalah tekal walaupun diberi set item yang berlainan tetapi masih mengukur konstruk yang sama (John M. Linacre, 2012b). Indeks pemisahan item pula menjelaskan bahawa melebihi 3.0 menunjukkan bahawa bilangan sampel individu cukup besar untuk mengesahkan hierarki kesukaran item instrumen. Indeks pemisahan individu pula adalah 2 menunjukkan bahawa instrumen cukup sensitif untuk membezakan antara individu yang berprestasi tinggi dan rendah. Jika indeks pemisahan diperhalusi kepada bilangan strata, dapatan menunjukkan terdapat dua strata iaitu dua peringkat tahap kebolehan bagi kebolehpercayaan melebihi 0.61 (Fisher, 1992; J. M. Linacre, 2013). Justeru, nilai indeks pemisahan item dan individu yang diperoleh adalah diterima kerana dapat mengasingkan tahap kebolehan responden.

Secara keseluruhannya, hasil analisis kebolehpercayaan menunjukkan instrumen ini memenuhi nilai yang diterima. Ringkasan dapatan kajian dinyatakan dalam Jadual 6. Keputusan menunjukkan bahawa item-item A1, A5, A9 dan A13 memerlukan semakan terperinci khususnya terhadap lompang-lompang yang wujud terhadap kesukaran item. Semakan yang dicadangkan adalah pengubahsuaian atau penambahan item sebelum ianya diputuskan untuk digugurkan memandangkan hanya terdapat 16 item bagi instrumen ini supaya pengukuran tahap pemikiran reflektif dapat diukur dengan lebih menyeluruh.

Jadual 6 Ringkasan Keputusan

Kesahan Kebolehpercayaan Keputusan

PTMEA Corr (Positif) Item (Diterima) Pengubahsuaian/

Penambahan item Infit/Outfit MNSQ (A1, A5, A9, A13

di luar cadangan julat).

Individu (Diterima) Kesukaran item (Wujud lompang) Indeks pemisahan item (Diterima)

Unidimensi Indeks pemisahan individu (Diterima)

Keseluruhan dapatan ini adalah berbeza dengan dapatan pengkaji-pengkaji lain yang turut mengesahkan instrumen ini namun menggunakan TUK dalam kajian mereka (Basol & Gencel, 2013; Kember et al., 2000; Lethbridge et al., 2013; Lucas & Tan, 2006) kerana aspek kesukaran item tidak diuji memandangkan terdapat limitasi TUK. MPR bukan sahaja melihat kesesuaian item malah menguji aras kesukaran item supaya pengukuran dilakukan dengan lebih tepat. Walau bagaimanapun, terdapat persamaan dengan kajian Lethbridge et al. (2013) yang menggunakan TUK telah mendapati

(8)

508

terdapat beberapa item yang lemah. Oleh yang demikian, dapatan ini memberi idea kepada kajian seterusnya untuk menambah baik dan mengemas kini item-item dalam instrumen ini sebelum ianya diguna pakai dalam konteks budaya pemikiran reflektif di Malaysia.

KESIMPULAN

Kajian ini telah menentukan kesahan konstruk dan kebolehpercayaan instrumen Tahap Pemikiran Reflektif (RTQ). Berdasarkan kepentingan aspek kesahan dan kebolehpercayaan, hasil kajian mendapati bahawa instrumen ini perlu ditambah baik disebabkan oleh kewujudan lompang bagi aras kesukaran item dan nilai MNSQ di luar julat cadangan. Ini kerana, jika kesahan dan kebolehpercayaan sesuatu instrumen tinggi, maka instrumen tersebut sah dan boleh dipercayai. Seterusnya, pengukuran tahap pemikiran reflektif juga dapat dilakukan dengan lebih tepat. Walaupun instrumen ini telah diuji kesahan dan kebolehpercayaannya dalam kajian terdahulu dengan menggunakan TUK, namun TRI menggunakan MPR telah mengesan kelemahan instrumen tersebut. Kajian menggunakan MPR ini telah meningkatkan kualiti pengukuran kerana telah membuat penelitian yang terperinci bagi setiap item yang terdapat dalam instrumen ini. Justeru, kajian ini telah memberikan implikasi yang baik kepada bidang pengukuran dan penilaian dalam mengambil kira analisis item dalam menentukan kesahan dan kebolehpercayaan item sebagai melengkapi TUK sedia ada. Kajian seterusnya dicadangkan untuk membaiki kelemahan ini supaya pengukuran tahap pemikiran reflektif dapat dilaksanakan dengan lebih menyeluruh.

RUJUKAN

Abou Baker El-Dib, M. (2007). Levels of reflection in action research. An overview and an assessment tool. Teaching and Teacher Education, 23(1), 24–35.

http://doi.org/10.1016/j.tate.2006.04.002

Aizan Yaacob, Walters, L. M., Ruzlan Md Ali, Sarimah Shaik Abdullah, & Walters, T. (2014). Reflecting on malaysian teacher trainees‟ journals. Malaysian Journal of Learning and Instruction, 11, 1–21.

Akbariah Mohd Mahdzir. (2009). Penerokaan ciri-ciri psikometrik instrumen pentaksiran pemikiran kritis malaysia (IPPKM) dan model pemikiran kritis malaysia. Universiti Kebangsaan Malaysia. Anuar Din, & Siti Ajar Md. Noh. (2014). Kesahan Dan Kebolehpercayaan Item Bagi Instrumen Sikap

Terhadap Pendidikan Jasmani Berdasarkan Model Pengukuran Rasch Aplikasi Winsteps. Jpaspex, 2(2), 15–20. Retrieved from http://www.jpaspex.com

Azrilah Abdul Aziz, Mohd Saidfudin Masodi, & Azami Zaharim. (2013). Asas Model Pengukuran Rasch: Pembentukan Skala dan Struktur Pengukuran. Bangi: Penerbit Universiti Kebangsaan Malaysia.

Baker, F. B. (2001). The Basics of Item Response Theory. Evaluation. http://doi.org/10.1111/j.1365-2702.2011.03893.x

Bambang Sumintono, & Wahyu Widhiarso. (2014). Aplikasi model Rasch untuk penelitian ilmu-ilmu sosial. (Bambang Trim, Ed.) (Kedua). Cimahi: Trim Komunikata Publishing House.

Barbara G. Tabachnick, & Linda S Fidell. (2007). Using multivariate statistics (5th ed.). New York: Pearson Education. Inc. http://doi.org/10.1037/022267

Baron, J. (1981). Reflective thinking as a goal of education. Intelligence, 5(4), 291–309. http://doi.org/10.1016/0160-2896(81)90021-0

Basol, G., & Gencel, I. (2013). Reflective Thinking Scale: A Validity and Reliability Study. Educational Sciences: Theory and Practice, 13(2), 941–947. Retrieved from

https://www.edam.com.tr/kuyeb/pdf/en/824a175da4be8de530b474a85ed3ca06oleng.pdf Bond, T., & Fox, C. (2001). Applying The Rasch Model: Fundamental Measurement in the Human

Sciences. New Jersey: Lawrence Erlbaum Associates, Inc.

Bond, T., & Fox, C. (2015). Applying the rasch model: Fundamental measurement in the human sciences (Edisi keti). New York: Routledge.

Boon, P. ying. (2005). Amalan Reflektif Ke Arah Peningkatan Profesionalisme Diri Guru. Jurnal IPBA, Jilid 3: B, 102–109.

(9)

509

pre service student teachers. Jurnal IPBA, 3(2), 1–16.

Brislin, R. W. (1986). The wording and translation of research instruments. Field Methods in Cross-Cultural Research, 137–164. http://doi.org/10.1037/0022-3514.90.4.644

Chien, T.-W. (2016). Association of Rasch Person Reliability with Cronbach‟s Alpha, Ferguson‟s Delta and Gini Coefficients. Rasch Measurement Transactions, 29(4), 1551–1552.

Fisher, W. J. (1992). Reliability, Separation, Strata Statistics. Rasch Measurement Transactions, 6(3), 238.

Ghazali Darusalam, & Sufean Hussin. (2016). Metodologi penyelidikan dalam pendidikan: Amalan dan analisis kajian. Kuala Lumpur: Penerbit Universiti Malaya.

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (1998). Multivariate Data Analysis. International Journal of Pharmaceutics (Vol. 1). http://doi.org/10.1016/j.ijpharm.2011.02.019 Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory.

Carlifornia: Sage Publications, Inc.

Higgins, G. E., Ricketts, M. L., & Fell, B. D. (2010). Self-Protective Identity Theft Behaviors of College Students: an Exploration Using the Rasch Person-Item Map. Southwest Journal of Criminal Justice, 7(1), 24–46. Retrieved from http://utsa.edu/swjcj/archives/7.1/Higgens et al. Article.pdf

Kapranos, P. (2007). 21 st century teaching & learning kolb cycle & reflective thinking as part of teaching , creativity , innovation , enterprise and ethics to engineers. International Symposium for Engineering Education.

Kember, D., Leung, D. Y. P., Jones, A., Loke, A. Y., McKay, J., Sinclair, K., … Yeung, E. (2000). Development of a questionnaire to measure the level of reflective thinking. Assessemnt & Evaluation in Higher Education, 25(4), 381–395. http://doi.org/10.1080/026029300449272 Kim, Y. (2005). Cultivating reflective thinking: The effects of a reflective thinking tool on learners’

learning performance and metacognitive awareness in the context of on-line learning. The Pennsylvania State University.

Kohli, N., Koran, J., & Henn, L. (2014). Relationships Among Classical Test Theory and Item Response Theory Frameworks via Factor Analytic Models. Educational and Psychological Measurement, 75(3), 389–405. http://doi.org/10.1177/0013164414559071

Lethbridge, K., Andrusyszyn, M., & Iwasiw, C. (2013). Assessing the psychometric properties of Kember and Leung ‟ s Reflection Questionnaire. Assessment & Evaluation in Higher Education, 38(3), 303–325. http://doi.org/10.1080/02602938.2011.630977

Linacre, J. M. (1994). Sample Size and Item Calibration Stability. Rasch Measurement Transactions, 7(4), 328.

Linacre, J. M. (1997). KR-20 / Cronbach alpha or Rasch person reliability: Which tells the truth? Rasch Measurement Transactions, 11(3), 580–581. Retrieved from

http://www.rasch.org/rmt/rmt113l.htm

Linacre, J. M. (2012a). A User’s Guide to W I N S T E P S ® M I N I S T E P Rasch-Model Computer Programs Program Manual 3.75.0. Chicago. http://doi.org/ISBN 0-941938-03-4

Linacre, J. M. (2012b). Winsteps Help for Rasch Analysis: Rasch-Model Computer Programs. http://doi.org/ISBN 0-941938-03-4

Linacre, J. M. (2013). Reliability , Separation and Strata : Percentage of Sample in Each Level. Rasch Measurement Transactions, 16(3), 1399.

Linarce, J. M. (2002). What do Infit and Outfit, Mean-square and Standardized mean? Rasch Measurement Transactions, 16(2), 878.

Lucas, U., & Tan, P. (2006). Assessing levels of reflective thinking: the evaluation of an instrument for use within accounting and business education. 1st Pedagogic Research in Higher Education …, 1–18. Retrieved from http://www2.uwe.ac.uk/faculties/BBS/BUS/Research/DRC/prhe.pdf Madzniyah Md. Jaafar. (2012). Amalan refleksi oleh guru dalam pelaksanaan kajian tindakan di

sekolah. In Seminar dan Bengkel Kepimpinan Penyelidikan: (Melaksanakan, Menulis & Menerbitkan Kajian Tindakan).

Nik Hanis Zuraihan Rahim, Abdullah Mat Rashid, & Ramlah Hamzah. (2015). Hubungan Antara Penglibatan Dalam Teknikal Dan Vokasional. Journal of Human Capital Development, 8(1), 105–120.

(10)

510

pemimpin sekolah. Universiti Kebangsaan Malaysia.

Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric Theory (Ketiga). United States of Amerika: McGraw Hill, Inc.

Rosselli, M., & Ardila, A. (2003). The impact of culture and education on non-verbal

neuropsychological measurements: A critical review. Brain and Cognition, 52(3), 326–333. http://doi.org/10.1016/S0278-2626(03)00170-2

Rosseni Din, Ahmad, M., M.Faisal Kz, Norhaslinda Mohamad Sidek, Aidah Abdul Karim, Nur Ayu Johar, … Siti Rahayah Ariffin. (2009). KESAHAN DAN KEBOLEHPERCAYAAN SOAL SELIDIK GAYA e-PEMBELAJARAN (eLSE) VERSI 8.1 MENGGUNAKAN MODEL PENGUKURAN RASCH. Jurnal Pengukuran Kualiti Dan Analisis, 5(2), 15–27.

Santos, A., & Stuart, M. (2003). Employees Perceptions and Influence on Training Effectiveness,. Human Resource Management Journal, 13(1), 27–45.

Shamsiah Md. Nasir, & Nil Farakh Sulaiman. (2015). Pemikiran Reflektif: Meneroka Amalan Pemikiran Siswa Pendidik. Jurnal Personalia Pelajar, 18(2), 84–94.

http://doi.org/10.1017/CBO9781107415324.004

Siti Rahayah Ariffin. (2008). Inovasi dalam pengukuran dan penilaian pendidikan. Bangi: Fakulti Pendidikan, Universiti Kebangsaan Malaysia.

Smith, R. M. (1996). Polytomous mean-square fit statistics. Rasch Measurement Transactions, 10(3), 516–517.

Swaminathan, H., & Rogers, H. J. (1990). Detecting Differential Item Functioning Using Logistic Regression Procedures, 27(4), 361–370.

Tavakol, M., & Dennick, R. (2011). Making sense of Cronbach‟s alpha. International Journal of Medical Education, 2, 53–55. http://doi.org/10.5116/ijme.4dfb.8dfd

Tuckman, B. W. (1999). Conducting Educational Research (5th ed.). OIrlando: Harcourt Brace College Publishers. http://doi.org/978 92 4 150215 3