• Tidak ada hasil yang ditemukan

Classical Test Theory (CTT)

Dalam dokumen Oleh: MARGARETHA DEVI PUJI ASTUTI NIM : (Halaman 77-92)

KAJIAN PUSTAKA A. Kurikulum

E. Classical Test Theory (CTT)

Analisis butir secara empirik dibagi menjadi dua, yaitu dengan pendekatan teori klasik (Classical Test Theory, CTT) dan teori respon butir (Item Response Theory, IRT). Menurut Allen & Yen dalam (Retnawati, 2016, p. 113) Teori tes klasik disebut juga teori skor murni klasik didasarkan pada suatu model aditif, yakni skor amatan adalah jumlah dari skor yang sebenarnya dan skor kesalahan pengukuran. Jika ditulis secara matematis :

keterangan :

X = Skor amatan

T = Skor yang sebenarnya

Kesalahan pengukuran yang dimaksud adalah kesalahan secara acak yang didapat dari penyimpangan secara teoritis antara skor amatan yang diperoleh dengan skor amatan yang diharapkan. Beberapa asumsi dalam teori klasik: (1) skor kesalahan pengukuran tidak berinteraksi dengan skor yang sebenarnya, (2) tidak ada korelasi antara skor kesalahan pengukuran dengan skor yang sebenarnya dan skor kesalahan pada tes yang lain untuk peserta tes yang sama, (3) rata-rata kesalahan pengukuran sama dengan nol. Ketiga asumsi tersebut dijadikan dasar untuk mengembangkan formula-formula dalam menentukan reliabilitas dan untuk menentukan kualitas tes khususnya indeks kesukaran dan daya pembeda.

1. Indeks kesukaran

Indeks kesukaran dan daya pembeda pada konteks ini tidak hanya berlaku untuk tes saja, tetapi juga untuk instrumen non tes. Yang perlu diperhatikan hanya penskorannya saja. Model penskoran ada dua yaitu secara dikotomi dan politomi. Penskoran secara dikotomi, misalnya benar-salah, ya-tidak, melakukan-tidak melakukan, dll. Penskoran dikotomi biasanya yang benar akan diberi skor 1 dan yang salah akan diberi skor 0. Penskoran secara politomi ini, objek hasil pemikiran dinilai bukan hanya 1-0 saja, namun bervariasi. Penskorannya bisa menggunkan skala Likert yang berupa skor 4 untuk jawaban sangat setuju, 3 untuk jawaban setuju, 2 untuk jawaban tidak setuju, dan 1 untuk jawaban sangat tidak setuju. Karena ada dua penskoran maka tingkat kesukaran butir dan daya pembeda juga dibagi menjadi dua

yaitu tingkat kesukaran butir pada data dikotomi dan pada data politomi.

Persamaan untuk menentukan indeks kesukaran butir pada data dikotomi, yaitu:

keterangan:

: proporsi menjawab benar pada butir soal tertentu (tingkat kesukaran)

∑ : banyaknya peserta tes yang menjawab benar : jumlah peserta tes yang menjawab

Persamaan untuk indeks kesukaran butir pada data politomi, yaitu:

∑ keterangan:

: proporsi menjawab benar pada butir soal tertentu (tingkat kesukaran)

∑ : banyaknya peserta tes yang menjawab benar : jumlah peserta tes yang menjawab

: skor maksimum tiap butir

Jika mendekati 0, maka soal tersebut terlalu sukar, jika mendekati 1, maka soal tersebut terlalu mudah, sehingga perlu dibuang. Hal ini disebabkan karena butir tersebut tidak dapat membedakan kemampuan antara peserta didik satu dengan yang lainnya (Retnawati, 2016, p. 114).

2. Daya pembeda

Untuk menentukan daya pembeda pada setiap butir soal, dapat digunakan indeks diskriminasi, indeks korelasi biserial, indeks korelasi

poin biserial, dan indeks keselarasan. Koefisien korelasi poin biserial untuk setiap butir ditentukan dengan rumus:

⌉ √

keterangan:

: koefisien korelasi point biserial : variable kontinu

: rata-rata skor X untuk peserta yang menjawab benar pada butir tersebut

: rata-rata skor X

: standar deviasi dari skor X

: proporsi peserta tes yang menjawab benar pada butir tersebut Indeks butir soal bisa dikatakan baik jika lebih besar atau sama dengan 0,3. Indeks daya pembeda yang kecil nilainya tidak dapat membedakan antara peserta didik yang berkemampuan tinggi dengan yang berkemampuan rendah (Retnawati, 2016, p. 115)

3. Kelemahan teori tes klasik

Menurut (Retnawati, 2016, p. 117), teori tes klasik mempunyai beberapa kelemahan yang mendasar, yaitu:

a. Tingkat kesukaran dan daya pembeda soal sangat bergantung pada sampel yang akan digunakan dalam analisis. Contohnya tingkat kesukaran soal, daya pembeda soal, dan reliabilitas tes akan tinggi jika sampel yang digunakan mempunyai kemampuan yang tinggi. b. Skor tes yang diperolah sangat terbatas pada tes yang digunakan.

c. Reliabilitas tes didasarkan pada kesejajaran perangkat tes sangat sulit dipenuhi. Jika prosedur tes retes digunakan, sampel yang digunakan tidak mungkin berperilaku sama pada saat tes yang kedua dilakukan. d. Tidak memberikan landasan untuk menentukan bagaimana respon

peserta tes jika diberikan butir tertentu. Tidak adanya informasi ini tidak memungkinkan melakukan desain tes yang bervariasi sesuai dengan kemampuasn peserta tes.

e. Indeks kesalahan baku pengukuran dipraasumsikan sama untuk setiap peserta tes. Peserta tes mungkin berperilaku konsisten dalam menjawab soal dibandingkan peserta tes lainnya. Kesalahan pengukuran merupakan perilaku tes yang bersifat perorangan dan bukan perilaku tes.

f. Pengujian bias butir soal dan penyetaraan tes tidak bersifat praktis dan sukar untuk dilakukan. Untuk mengatasi hal tersebut, maka digunakan pendekatan teori lain yaitu teori respon butir.

F. Item Response Theory (IRT) 1. Pengertian

Teori Responsi Butir (Item Reponse Theory disingkat IRT). IRT dibuat dengan tujuan untuk memperbaiki kelemahan-kelemahan yang terdapat pada pengukuran klasik. Perbedaan antara pengukuran klasik dengan pengukuran modern terletak pada invariansi penskoran, di mana penskoran modern adalah tetap terhadap butir tes serta terhadap peserta tes. Menurut Lord dalam (Sudaryono, 2013)invariansi parameter butir

tes kelompok peserta tes merupakan karakteristik yang paling penting dari IRT.

Model karakteristik butir dalam IRT dapat berbentuk satu parameter (1P), dua parameter (2P), tiga parameter (3P), atau model lain. 1P: P(q) = f(b, q), 2P: P(q) = f(a, b, q) dan 3P: P(q) = (a, b, c, q), satu, dua, dan tiga adalah banyaknya parameter butir. Parameter q adalah parameter kemampuan responden. Parameter b adalah parameter taraf kesukaran butir. Parameter a adalah parameter daya beda butir. Parameter c adalah parameter terkaan jawaban benar (Sudaryono, 2013) 2. Asumsiteori responsi butir

Dalam IRT taraf kesukaran dan daya beda butir tes tetap sama, walaupun butir tes tersebut diselesaikan oleh kelompok peserta tes yang berbeda. Untuk itu, IRT mengembangkan model yang menghubungkan parameter butir dengan kemampuan peserta tes.

Perbedaan antara model-model IRT dalam pemakaian bersama yaitu jumlah, tipe serta karakteristik yang diasumsikan untuk kinerja peserta tes. Jadi dalam IRT setiap soal harus diwakili oleh satu Item Characteristic Curve (ICC). “Item Characteristic Curve (ICC) adalah pernyataan Matematika yang berhubungan dengan probabilitas keberhasilan peserta tes sesuai dengan kemampuannya” (Sudaryono, 2013).

a. Unidimensi

Asumsi unidimensi akan terpenuhi apabila butir-butir dalam perangkat tes hanya mengukur satu kemampuan peserta tes saja. Misalnya tujuan butir tes adalah untuk mengukur kemampuan peserta tes dalam mata pelajaran akuntansi. Butir-butir yang dikonstruksi berupa soal cerita dan berbentuk dikotomi. Apabila peserta tes menjawab salah maka tidak dapat diketahui apakah kesalahan itu disebabkan oleh ketimpangan peserta tes atau yang lainnya. Dalam kenyataannya sulit mendapatkan suatu butir yang mengukur hanya satu kemampuan peserta tes.

Menurut Dali S Naga (1992: 164) dalam (Sudaryono, 2013) persyaratan unidimensi bertujuan untuk mempertahankan invariansi pada IRT. Jika butir tes mengukur lebih dari satu dimensi, maka jawaban terhadap butir itu merupakan kombinasi dari berbagai kemampuan peserta tes. Akibatnya, tidak diketahui kontribusi dari setiap kemampuan terhadap jawaban peserta tes tersebut.

Untuk menentukan suatu butir tes merupakan unidimensi atau tidak, maka digunakan metode analisis faktor. Setiap faktor hanya menunjukkan suatu dimensi indikator tes, faktor-faktor tersebut meliputi motivasi, kecemasan, kemampuan bekerja cepat, kecenderungan menebak apabila ragu-ragu menjawab, dan

keterampilan menjumlahkan, serta faktor lain yang diukur dengan sehimpunan butir tes, menurut asmin dalam (Sudaryono, 2013) b. Independensi lokal

Independensi lokal dibagi menjadi dua yaitu independensi lokal terhadap respon peserta tes dan independensi lokal terhadap butir tes. Independensi lokal terhadap respon peserta tes yaitu betul salahnya peserta tes menjawab sebuah butir tidak terpengaruh oleh betul salahnya peserta tes lain dalam menjawab butir tersebut, sedangkan independensi lokal terhadap butir yaitu betul salahnya seorang peserta tes menjawab sebuah butir tidak terpengaruh oleh betul salahnya peserta tes dalam menjawab butir yang lain.

Independensi lokal dapat diuji dengan dua cara, yaitu: (1) secara eksak melalui rumus probabilitas, Independensi lokal tercapai apabila data memenuhi rumus independensi pada probabilitas, (2) secara statistika melalui uji ketergantungan chi-kuadrat.

c. Invarian

Perbedaan antara pengukuran klasik dengan pengukuran modern terletak pada invariansi penskoran, di mana penskoran modern adalah tetap terhadap butir tes maupun peserta tes. Masalah yang muncul dalam IRT ialah (1) Penentuan rumus model responsi butir atau model karakteristik butir; (2) pengkalibrasian butir, yaitu menentukan pengestimasian nilai parameter butir maupun

parameter peserta.Untuk memeriksa hasilnya dilakukan estimasi parameter, yang bertujuan sebagai pencocokan model.

3. Karakteristik Butir

Karakteristik butir dalam teori responsi butir terdiri dari taraf sukar butir (b), daya beda butir (a), dan faktor kebetulan menjawab betul pada butir (c). Parameter peserta tes adalah kemampuan peserta tes yang dinyatakan dengan q.

a. Taraf sukar butir

Semakin mudah butir (b semakin kecil ), maka semakin besar probabilitas responden menjawab butir itu dengan benar sehingga nilai P(q) menjadi besar. Begitu juga sebaliknya semakin sukar butir (b semakin besar), maka semakin kecil probabilitas responden menjawab butir itu dengan benar sehingga nilai P(q) menjadi kecil. Taraf sukar butir ke-i dinyatakan dengan .jika q > maka Pi (q) tinggi , sedangkan jika q < maka Pi (q) rendah.

Taraf kesukar butir adalah peluang menjawab benar pada tingkat kemampuan tertentu, umumnya dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran ini dinyatakan dalam bentuk proporsi yang berkisar 0,00 – 1,00. Butir yang memiliki indeks 0,00 berarti tidak ada peserta didik yang menjawab benar, indeks 1,00 artinya peserta didik menjawab benar butir tersebut. Perhitungan indeks tingkat kesukaran ini dilakukan untuk setiap nomor butir. Semakin besar indeks tingkat kesukaran yang

diperoleh dari hasil perhitungan, maka semakin mudah soal itu dan sebaliknya.

Menurut Nitko dalam (Sudaryono, 2013), Kegunaan taraf sukar butir bagi guru: (1) sebagai pengenalan konsep pembelajaran, (2) memperoleh informasi butir soal yang bias. Adapun kegunaannya bagi pengujian dan pengajaran adalah: (1) pengenalan konsep yang perlu diajarkan ulang, (2) memperoleh informasi tentang kelebihan dan kelemahan kurikulum sekolah, (3) untuk memberi masukan kepada peserta didik, (4) tanda-tanda adanya butir soal yang bias, dan (5) merakit tes yang memiliki ketepatan data soal.

Tingkat kesukaran butir juga dapat digunakan untuk memprediksi kemampuan peserta didik. Misalnya satu butir soal termasuk kategori mudah, maka prediksi terhadap butir ini adalah: pengecoh butir soal itu tidak berfungsi dansebagian besar peserta didik telah memahami materi yang ditanyakan. Di samping kedua kegunaan tersebut, taraf sukar butir sangatlah penting karena:(1) dapat mempengaruhi karakteristik distribusi skor dan (2) berhubungan dengan reliabilitas, semakin tinggi korelasi antar soal semakin tinggi reliabilitas dan validitas butir tersebut (Sudaryono, 2013).

b. Daya beda butir

Butir memiliki parameter berupa daya beda butir. Daya beda butir adalah kemampuan butir soal dapat membedakan antara peserta didik yang menguasai materi dan peserta didik yang belum menguasai materi yang ditanyakan. Tingkat kesukaran berpengaruh langsung pada daya pembeda soal. Manfaat daya beda butir adalah: (1) untuk meningkatkan mutu setiapbutir soal; (2) untuk mengetahui sejauh mana setiap butir soal dapat membedakan kemampuan peserta didik.

Apabila suatu butir soal tidak dapat membedakan kedua kemampuan peserta didik, maka kemungkinan: (1) kunci jawaban butir tidak tepat, (2) terdapat dua kunci jawaban benar pada butir tersebut, (3) kompetensi yang diukur tidak jelas, (4) jawaban pengecoh tidak berfungsi, (5) butir soal terlalu sulit, sehingga banyak peserta didik yang menebak, dan (5) sebagian besar peserta didik yang memahami materi yang ditanyakan berpikir mungkin ada informasi yang salah dari butir tersebut.

Indeks daya beda butir juga dinyatakan dalam bentuk proporsi. Semakin tinggi indeks daya beda butir maka semakin baik butir tersebut membedakan peserta didik yang memahami materi dengan peserta didik yang belum memahami materi. Indeks daya beda berkisar antara -1,00 sampai dengan +1,00. Jika daya beda butir negatif berati banyak kelompok bawah (peserta didik yang tidak

memahami materi) menjawab benar butir tes dibanding dengan kelompok atas (peserta didik yang memahami materi).

Untuk menggambarkan tentang daya beda butir maka dapat dibuat grafik yang menunjukkan kemiringan kurva. Selain itu indeks daya beda juga bisa dihitung dengan korelasi poin biserial maupun korelasi biserial. Indeks daya pembeda didefinisikan sebagai selisih antara proporsi jawaban benar pada kelompok atas dengan proporsi jawaban benar pada kelompok bawah (Surapranata dalam (Sudaryono, 2013)).

c. Tingkat kebetulan betul pada butir

Ada kalanya butir soal berbentuk pilihan ganda sehingga responden yang tidak memiliki kemampuan pun masih bisa menjawab benar melalui terkaan. Jika jumlah jawaban pada pilihan ganda itu adalah lima (misalkan A, B, C, D, E), maka melalui terkaan saja terdapat 1 di antara 5 kemungkinan bahwa jawaban itu benar. Dalam hal ini probabilitas jawaban benar karena kebetulan adalah ¼ atau 0,25 sehingga c = 0,25 (Dali S. Naga dalam (Sudaryono, 2013)).

Tingkat kebetulan menjawab betul pada butir ke-i dinyatakan dengan parameter butir ci dan merupakan probabilitas jawaban betul minimum. Pi(q) min = ci. Taraf sukar butir bi tidak diperoleh melalui probabilitas jawaban betul Pi(q) = 0,5 melainkan pada : Pi(q) = ci + 0,5 (1- ci) = 0,5 (1 + ci). Bentangan Pi (q) tidak lagi

dari 0 sampai 1,0 melainkan dari ci sampai 1,0 yakni selebar (1–ci) sehingga: f(ai(-qbi)) menjadi (1– ci) f (ai(-q bi)) dan probabilitas jawaban betul menjadi: Pi (q) = ci + (1 – ci) f (ai (q – bi)). Di sini terdapat tiga parameter butir ai, bi, dan ci sehingga dikenal sebagai karakteristik butir tiga parameter dengan persamaan : Pi (q) = f (q, ai, bi, ci).

4. Dikotomi

Dalam pengukuran pendidikan, kesehatan, psikologi, dll, penskoran sering dilakukan secara dikotomi. Misalnya pada evaluasi yang dilakukan dalam pendidikan, peserta didik menjawab soal pilihan ganda dengan benar maka akan mendapat skor 1 dan skor 0 jika menjawab salah. Penyekoran pada teori klasik, kemampuan peserta didik dinyatakan dalam skor total yang diperolehnya.

Ada pendekatan alternatif yang bisa dilakukan dalam menganalisis suatu tes yaitu pendekatan teori respon butir. Dua prinsip dalam pendekatan teori respon butir ini yaitu prinsip relativitas dan prinsip probabilitas. Pada prinsip relativitas, unit dasar dari pengukuran lebih kepada performance peserta didik relatif terhadap butir. merupakan Kemampuan peserta didik ke n pada trait yang diukur, dan merupakan indeks tingkat kesukaran dari butir ke-i. Unit pengukuran teori respon butir lebih kepada perbedaan antara kemampuan dari peserta didik relatif terhadap tingkat kesukaranpeserta didik atau ( ). Menurut keeves dan Alagumalai dalam (Retnawati, Teori

Respons Butir dan Penerapannya, 2014, p. 13),. Jika kemampuan peserta didik melampaui tingkat kesukaran butir, maka respons peserta didik diharapkan benar, jika kemampuan peserta didik kurang dari tingkat kesukaran butir maka responpeserta didik diharapkan salah. Menurut Hambelton, Swaminathan, dan Rogers dalam (Retnawati, Teori Respons Butir dan Penerapannya, 2014, p. 14) bentuk persamaan dalam model Rasch (1PL) sebagai berikut:

( ) ( )( ) , dengan i :1, 2, 3, …. n

keterangan :

( ) : probabilitas peserta tes yang memiliki kemampuan dipilih secara acak dapat menjawab butir i dengan benar

: tingkat kemampuan subjek (sebagai variable bebas) : indeks kesukaran butir ke-i

e : bilangan natural yang nilainya mendekati 2,718 n : banyaknya butir dalam tes

Parameter merupakan suatu titik pada skala kemampuan agar peluang menjawab benar sebesar 50%. Misalnya suatu butir tes mempunyai parameter = 0,3, artinya diperlukan kemampuan minimal 0,3 pada skala untuk menjawab benar dengan peluang 50%. Semakin besar nilai , maka semakin besar kemampuan yang diperlukan untuk menjawab benar dengan peluang 50% atau semakin besar nilai maka

5. Politomi

Model lain yang dapat digunakan untuk menskor respon peserta terhadap butir tes selain model dikotomi yaitu model politomi. Menurut Van Der Linder dan Hambelton dalam (Retnawati, Teori Respons Butir dan Penerapannya, 2014, p. 32) model-model politomi antara lain nominal respons model (NRM), rating scale model (RSM), partial credit model (PCM), graded respons model (GRM), dan generalized partial credit model (GPCM).

Model respons butir politomi dapat dikategorikan model respons butir nominal dan ordinal, tergantung asumsi karakteristik datanya. Butir yang mempunyai jawaban yang tidak berurutan dan mempunyai berbagai tingkat kemampuan yang diukur, untuk penskorannya dapat menggunakan model respon butir nominal. Untuk model respon ordinal akan terjadi pada butir yang dapat diskor ke dalam banyaknya kategori tertentu yang tersusun dalam jawaban. Skala Likert merupakan contoh dari peskoran ordinal berdasarkan pedoman penskoran, contoh lain dari penskoran ordinal yaitu langkah-langkah menuju jawaban benar pada butir tes matematika yang diskor menggunakan sistem parsial kredit. Penskoran yang paling sering digunkan yaitu GRM, PCM, dan GPCM.

(Retnawati, Teori Respons Butir dan Penerapannya, 2014, p. 33) Contoh model penskoran GRM misalnya angket yang menggunakan skala Likert. Pada Skala Likert, peserta dapat menjawab Sangat Setuju (SS), Setuju (S), Netral (N), Tidak Setuju (TS), dan Sangat Tidak

Setuju (STS). Penskoran dibedakan untuk pernyataan positif dan pernyataan negatif. Untuk skor pada pernyataan positif, maka Sangat Setuju diberi skor 5, Setuju Skor 4, Netral Skor 3, Tidak Setuju skor 2, dan Sangat Tidak setuju skor 1. Untuk skor pada pernyataan negatif, maka Sangat Setuju diberi skor 1, Setuju Skor 2, Netral Skor 3, Tidak Setuju skor 4, dan Sangat Tidak Setuju skor 5.

Contoh model penskoran PCM biasanya dilakukan pada instrumen yang ada bagian-bagiannya, misalnya pada instrumen untuk mengobservasi kemandirian anak menggosok gigi. Untuk mnggososk gigi, paling tidak diperlukan 7 tahap atau 7 langkah. Pada instrumen tersebut, responden yang diamati diberi skor untuk setiap langkah yang dilakukannya. Responden terkadang tidak melakukan semua langkah yang telah ditetapkan dan bisa jadi semua langkah telah dilakukan tetapi tidak berurutan. Langkah yang dilakukan diberi skor 1, dan langkah yang tidak dilakukan diberi skor 0. Total skor yang diperoleh merupakan penskoran model PCM atau model parsial.

Dalam dokumen Oleh: MARGARETHA DEVI PUJI ASTUTI NIM : (Halaman 77-92)

Dokumen terkait