EFEKTIVITAS
COMPUTERIZED ADAPTIVE TESTING
Studi eksperimental dengan
Fakultas Psikologi, Universitas Indonesia
Salah satu kegiatan dalam praktik psikologi adalah pengetesan untuk berbagai tujuan. Namun, kebanyakan pengetesan dilakukan secara tertulis
pihak, dengan perkembangan pesat
sebenarnya dapat dimanfaatkan untuk mendapatkan hasil pe hanya untuk penyekoran tapi juga untuk
dengan menampilkan item-item tes dengan jumlah d
Computerized Testing (CT). Dengan menerapkan dimanfaatkan untuk mengatur pemberian item kemampuannya, yang disebut Computerized
yang menjawab benar suatu item menjawab salah, maka selanjutnya
memberikanitem bila telah mendapatkan skor di Amerika Serikat sejak 1980-an
advance progressive matrices test
banyak digunakan. Namun sayangnya pengetesannya masih menggunakan Penelitian eksperimental
menggunakan APM. Dengan 2 IV CAT) dan batas waktu pengerjaan tes
APM sebagai DV, maka ada 6 kelompok penelitian yang dibentuk sebelum penelitian, setiap subyek diberikan tes APM
fakultas Psikologi UImenunjukkan
CAT dan administrasi PPT. Sedangkan skor
Ditemukan juga, kelompok dengan administrasi CT memiliki skor yang berbeda kelompok yang diadministrasikan CAT.
batas waktu pengerjaan. Hal ini
menyelesaikan tes. Tidak ditemukan pengaruh interaksi antara bentuk administrasi tes dan batas waktu pengerjaan tes terhadap performa tes APM.
diadministrasikan melalui CAT lebih kecil (rata
item). Oleh karena itu, dari penelitian eksperimental ini dapat disimpulkan bahwa CAT lebih efektif dari CT dan PPT karena dapat menghasilkan skor yang sama mes
lebih sedikit dan waktu pengerjaan yang lebih singkat. Kata kunci: pengetesan, psikometri, eksperimen,
COMPUTERIZED ADAPTIVE TESTING
Studi eksperimental dengan
Raven’s Advance Progressive
Matrices Test
Aries Yulianto27Fakultas Psikologi, Universitas Indonesia
ABSTRAK
Salah satu kegiatan dalam praktik psikologi adalah pengetesan untuk berbagai tujuan. ebanyakan pengetesan dilakukan secara tertulis atau paper-pencil test
dengan perkembangan pesat komputer dalam penggunaan di berbagai
ebenarnya dapat dimanfaatkan untuk mendapatkan hasil pengetesan yang cepat dan akurat, tidak hanya untuk penyekoran tapi juga untuk administrasi tes. Pada awalnya, komputer dimanfaatkan
item tes dengan jumlah dan urutan yang sama seperti PPT, yang Dengan menerapkan Item Response Theory (IRT
dimanfaatkan untuk mengatur pemberian item kepada penempuh tes yang disesuaikan dengan
Computerized Adaptive Testing(CAT). Artinya, benar suatu item, akan diberikan item berikutnya yang lebih sukar.
selanjutnya akan diberikan item yang lebih mudah. Komputer berhenti item bila telah mendapatkan skor dengan akurat. Meskipuntelah
an, CAT belum banyak digunakan di Indonesia.
test merupakan salah satu pengukuran kemampuan nonverbal yang Namun sayangnya pengetesannya masih menggunakan PPT
eksperimental ini dilakukan untuk mengetahui efektivitas yang dimanipulasi,yaitu bentuk administrasi tes ( pengerjaan tes (25 menit, 50 menit, atau tidak terbatas),
ada 6 kelompok penelitian yang dibentuk dengan randomisasi litian, setiap subyek diberikan tes APM dengan PPT. Eksperimen
menunjukkantidak ada perbedaan skorAPM yang signifikan edangkan skorpada PPTberbeda signifikandengan skor elompok dengan administrasi CT memiliki skor yang berbeda kelompok yang diadministrasikan CAT.Selain itu,tidak ada perbedaanyangsignifikan
. Hal ini dikarenakan sebelum 25 menit sebagian besar subyek telah menyelesaikan tes. Tidak ditemukan pengaruh interaksi antara bentuk administrasi tes dan batas waktu pengerjaan tes terhadap performa tes APM. Sebagai tambahan, j
ministrasikan melalui CAT lebih kecil (rata-rata 12 item) dibandingkan melalui CT (rata
Oleh karena itu, dari penelitian eksperimental ini dapat disimpulkan bahwa CAT lebih efektif CT dan PPT karena dapat menghasilkan skor yang sama meskipun dengan
lebih sedikit dan waktu pengerjaan yang lebih singkat.
: pengetesan, psikometri, eksperimen, item response theory
COMPUTERIZED ADAPTIVE TESTING
:
Raven’s Advance Progressive
Salah satu kegiatan dalam praktik psikologi adalah pengetesan untuk berbagai tujuan.
pencil testing (PPT). Di lain aan di berbagai aspek kehidupan, ngetesan yang cepat dan akurat, tidak Pada awalnya, komputer dimanfaatkan rutan yang sama seperti PPT, yang disebut IRT), komputer dapat kepada penempuh tes yang disesuaikan dengan seorangpenempuh tes yang lebih sukar.Sebaliknya; bila akan diberikan item yang lebih mudah. Komputer berhenti digunakan secara luas , CAT belum banyak digunakan di Indonesia. Selain itu, Raven’s
merupakan salah satu pengukuran kemampuan nonverbal yang PPT.
efektivitas dari CAT dengan yaitu bentuk administrasi tes (konvesional atau (25 menit, 50 menit, atau tidak terbatas), serta performa tes dengan randomisasi. Dua minggu Eksperimen pada 120 mahasiswa signifikanantara administrasi dengan skoradministrasi CT. elompok dengan administrasi CT memiliki skor yang berbeda signifikan dengan signifikandiantara ketiga sebelum 25 menit sebagian besar subyek telah menyelesaikan tes. Tidak ditemukan pengaruh interaksi antara bentuk administrasi tes dan batas Sebagai tambahan, jumlah item yang rata 12 item) dibandingkan melalui CT (rata-rata 34 Oleh karena itu, dari penelitian eksperimental ini dapat disimpulkan bahwa CAT lebih efektif dengan jumlah item yang
Pendahuluan
Tidak dapat dipungkiri bahwa sebagian besar psikologi sendiri telah banyak digunakan dalam misalnya dalam industri dan organisasi digunakan untuk klinis digunakan untuk mendiagnosis
pengukuran lainnya (seperti wawancara atau
yaitu lebih informatif, adil, dan memiliki atribut psikometri yang baik (Friedenberg, 1995). Sebagian besar tes psikologis
(Domino & Domino, 2006). Paper
dicetak dan membutuhkan respons tertulis
pencil testing (PPT). PPT termasuk
menerima seperangkat item yang sama.
penempuh tes mendapat perangkat item yang sama, maka dapat menyebabkan
tidak terjaga karena dapat saja dibaca oleh orang yang tidak berwenang atau bertanggung jawab (Bunderson, Inouye, & Olsen, 1989). Selain itu, karena harus memberikan semua item, diperlukan waktu pengadministrasian yang lebih lama.
dibutuhkan ruang untuk menyimpan data tes. Tes Raven’s Advance Progressive Matrices
kemampuan non verbal yang paling banyak diketahui, tes ini didasarkan pada
kemampuan penalaran abstrak menjadi kemampuan utama Hal ini diketahui dari hasil analisis faktor bahwa skor t
faktor g), yang menunjukkan kemampuan seseorang untuk melakukan penalaran mengenai semua tugas-tugas mental (Bower, 2003).
kemampuan mekanikal yang baik, jug
rotasi mental (Gregory, 2000). Dalam pelaksanaannya di Indonesia, PPT. Selain APM, sebagian besar
tahun di Indonesia. Dengan demikian, tes
karena kemungkinan besar telah bocor atau tidak mengikut
Di lain pihak, saat ini komputer telah melekat dalam kehidupan sehari berkembang pesat di berbagai aspek kehidupan,
dengan internet atau bekerja menggunakan pengolah kata. melakukan pekerjaan dengan cepat dan memiliki tingkat
maraknya pemanfaatan komputer dalam segala bidang, tidak diikuti pemanfaatan untuk pengadministrasian tes psikologi di Indonesia (Yulianto, 2007).
komputer untuk pengetesan, saat ini telah
penyekoran sejumlah tes psikologi. Walaupun demikian, komputer
untuk mendapatkan hasil pengetesan yang cepat dan akurat, tidak hanya untuk penyekoran tapi juga untuk administrasi tes.
Melihat perkembangan di luar Indonesia, p
tes psikologi mulai digunakan seiring perkembangan teknologi. pengetesan mulai dilakukan sekitar
yang memuat kata-kata “computer assisted test
tes psikologi mulai berpindah dari penggunaan kertas (
Tidak dapat dipungkiri bahwa sebagian besar pekerjaan psikologi berkaitan dengan tes. banyak digunakan dalam pengetesan dengan berbagai macam tujuan, dalam industri dan organisasi digunakan untuk seleksi calon karyawan
untuk mendiagnosis gangguan. Tes lebih banyak digunakan dibandingkan metode pengukuran lainnya (seperti wawancara atau work sample) karena memiliki sejumlah kelebihan, yaitu lebih informatif, adil, dan memiliki atribut psikometri yang baik (Friedenberg, 1995).
psikologis yang digunakan saat ini dalam bentuk
Paper-pencil test melibatkan sejumlah perangkat pertanyaan yang dicetak dan membutuhkan respons tertulis, sehingga pengadministrasiannya disebut sebagai
suk administrasi tes yang konvensional karena semua penempuh tes menerima seperangkat item yang sama. Oleh karena tes diberikan dalam kertas dan setiap penempuh tes mendapat perangkat item yang sama, maka dapat menyebabkan
ena dapat saja dibaca oleh orang yang tidak berwenang atau bertanggung jawab , 1989). Selain itu, karena harus memberikan semua item, diperlukan waktu pengadministrasian yang lebih lama.Penggunaan kertas menjadimasalah
dibutuhkan ruang untuk menyimpan data tes.
Raven’s Advance Progressive Matrices (disingkat APM) merupakan salah satu tes yang paling banyak dan telah lama digunakan di Indonesia
diketahui, tes ini didasarkan pada teori inteligensi g (general) factor oleh Spearman, kemampuan penalaran abstrak menjadi kemampuan utamayangmenentukan
dari hasil analisis faktor bahwa skor tes berkorelasi pada satu faktor
, yang menunjukkan kemampuan seseorang untuk melakukan penalaran mengenai semua tugas mental (Bower, 2003). Individu yang dapat mengerjakan dengan baik memiliki kemampuan mekanikal yang baik, juga mampu memperkirakan proyeksi gerakan dan melakukan Dalam pelaksanaannya di Indonesia,tesini diadministrasikan melalui sebagian besar tes psikologis yang berbentuk PPT telah digunakan
Dengan demikian, tes-tes tersebut telah diragukan reliabilitas karena kemungkinan besar telah bocor atau tidak mengikuti perkembangan terbaru.
saat ini komputer telah melekat dalam kehidupan sehari
erkembang pesat di berbagai aspek kehidupan, misalnya, sebagian besar orang tidak asing lagi dengan internet atau bekerja menggunakan pengolah kata. Hal ini disebabkan komputer dapat melakukan pekerjaan dengan cepat dan memiliki tingkatkesalahanyangsangat
maraknya pemanfaatan komputer dalam segala bidang, tidak diikuti pemanfaatan untuk pengadministrasian tes psikologi di Indonesia (Yulianto, 2007). Berkaitan dengan penggunaan komputer untuk pengetesan, saat ini telah banyak dibuat program komputer untuk melakukan sejumlah tes psikologi. Walaupun demikian, komputer sebenarnya dapat dimanfaatkan untuk mendapatkan hasil pengetesan yang cepat dan akurat, tidak hanya untuk penyekoran tapi
Melihat perkembangan di luar Indonesia, pemanfaatan komputer untuk pengadministrasian tes psikologi mulai digunakan seiring perkembangan teknologi. Penggunaan
pengetesan mulai dilakukan sekitar tahun 1970 di Amerika Serikat ketika diterbitkan sebuah buku kata “computer assisted testing” (Bunderson dkk, 1989).
tes psikologi mulai berpindah dari penggunaan kertas (PPT) menjadi penggunaan komputer psikologi berkaitan dengan tes. Tes dengan berbagai macam tujuan, seleksi calon karyawan atau dalam setting nakan dibandingkan metode ) karena memiliki sejumlah kelebihan, yaitu lebih informatif, adil, dan memiliki atribut psikometri yang baik (Friedenberg, 1995).
saat ini dalam bentuk paper-pencil test
melibatkan sejumlah perangkat pertanyaan yang , sehingga pengadministrasiannya disebut sebagai
paper-konvensional karena semua penempuh tes Oleh karena tes diberikan dalam kertas dan setiap penempuh tes mendapat perangkat item yang sama, maka dapat menyebabkan kerahasiaan tes ena dapat saja dibaca oleh orang yang tidak berwenang atau bertanggung jawab , 1989). Selain itu, karena harus memberikan semua item, diperlukan masalahtersendiri, misalnya
(disingkat APM) merupakan salah satu tes di Indonesia. Seperti telah oleh Spearman, dimana menentukanintelektual seseorang. es berkorelasi pada satu faktor (yang disebut , yang menunjukkan kemampuan seseorang untuk melakukan penalaran mengenai semua Individu yang dapat mengerjakan dengan baik memiliki a mampu memperkirakan proyeksi gerakan dan melakukan ini diadministrasikan melalui telah digunakan lebih dari 20 reliabilitas dan validitasnya i perkembangan terbaru.
saat ini komputer telah melekat dalam kehidupan sehari-hari. Penggunaannya misalnya, sebagian besar orang tidak asing lagi Hal ini disebabkan komputer dapat sangatkecil.Namun, seiring maraknya pemanfaatan komputer dalam segala bidang, tidak diikuti pemanfaatan untuk Berkaitan dengan penggunaan banyak dibuat program komputer untuk melakukan sebenarnya dapat dimanfaatkan untuk mendapatkan hasil pengetesan yang cepat dan akurat, tidak hanya untuk penyekoran tapi
emanfaatan komputer untuk pengadministrasian Penggunaan komputer dalam diterbitkan sebuah buku , 1989). Pengadministrasian ) menjadi penggunaan komputer
(computerized testing, disingkat CT
item tes yang sama dengan yang ada di lembar tes. Pemanfaatan komputer
beberapa kelebihan, seperti penyekoran lebih cepat, pelaporan dan interpretasi yang segera, standardisasi administrasi yang lebih baik, meningkatkan keamanan tes, serta mengurangi error pengukuran. Bentuk pengetesan komputer ini disebut Bunderson dkk (1989)
pertama dari pemanfaatan komputer dalam pengetesan
Seiiring perkembangan teknologi, teori pengukuran psikologi pun mengalami perkem bangan. Item response theory (I
diperkenalkan olehGeorgRash tahun 1966 dengan model satu parameter
Sejumlah pandangan pendekatan IRT adalah: urutan item tidak menjadi masalah, item yang sedikit dapat lebih reliabel, dan setiap
(Embretson & Reise, 2000). Selain itu, skala yang sama (Hambleton, Swanithan,
Dalam perkembangan selanjutnya, penggunaan pendekatan IRT dalam pengetesan menggunakan komputer mulai diterapkan.
berada dalam skala yang sama, maka pemberian item kemampuan setiap penempuh tes.
Adaptive Testing (CAT). CAT tidak hanya sekedar
tetapi memberikan item yang sesuai dengan kemampuan
ini karena komputer digunakan untuk mengatur item yang akan diberikan berikutnya penempuh tes terkait dengan respons pada item
memiliki kemampuan tinggi akan mendapatkan item yang berbeda dibandingkan individu yang memiliki kemampun lebih rendah (Wainer, 1990).
dasar IRT untuk menciptakan sebuah algoritma dimana setiap penempuh tes mendapatkan sebuah tes yang merupakan pengukuran yang baik terhadap individu tersebut (Embretson & Reise, 2000). CAT merupakan generasi kedua dari penggunaan komputer untu
(Bunderson dkk, 1989). Alur pengadministrasian (dapat dilihat pada gambar 1).
Pada CAT, Apabila penempuh tes menjawab akan memberikan item berikutnya
selanjutnya diberikan yang lebih sukar
kemampuan individu dengan menggunakan CAT dengan pendekatan IRT memiliki kelebihan dibandingkan PPTyang berbasis pendekatan klasik.
aman karena tersimpan dalam komputer serta setiap peserta tes mendapatkan tidak diperlukannya lembar jawaban tes, serta tes dapat diskor dengan segera
disingkat CT).Pada bentuk ini,komputerdigunakanuntuk tes yang sama dengan yang ada di lembar tes. Pemanfaatan komputer
beberapa kelebihan, seperti penyekoran lebih cepat, pelaporan dan interpretasi yang segera, ang lebih baik, meningkatkan keamanan tes, serta mengurangi error pengukuran. Bentuk pengetesan komputer ini disebut Bunderson dkk (1989)
dari pemanfaatan komputer dalam pengetesan.
Seiiring perkembangan teknologi, teori pengukuran psikologi pun mengalami perkem (IRT) atau disebut juga latent trait theory (Crocker & Algina, 1986), Rash tahun 1966 dengan model satu parameter(Anastas
Sejumlah pandangan pendekatan IRT adalah: urutan item tidak menjadi masalah, item yang sedikit dapat lebih reliabel, dan setiap peserta tes dapat memperoleh seperangkat item yang berbeda Selain itu, kemampuan individu dan kemampuan item berada dalam
Swanithan, & Rogers, 1991).
Dalam perkembangan selanjutnya, penggunaan pendekatan IRT dalam pengetesan menggunakan komputer mulai diterapkan. Karena kemampuan individu dan kemampuan item berada dalam skala yang sama, maka pemberian item oleh komputer dapat disesuaikan dengan
penempuh tes. Pemanfaatan komputer seperti ini disebut sebagai CAT tidak hanya sekedar memindahkan item kedalam komputer
sesuai dengan kemampuan setiap penempuh tes. Penyebutan adaptif ini karena komputer digunakan untuk mengatur item yang akan diberikan berikutnya
terkait dengan respons pada item sebelumnya. Hal ini mengakibatkan individu yang memiliki kemampuan tinggi akan mendapatkan item yang berbeda dibandingkan individu yang memiliki kemampun lebih rendah (Wainer, 1990). Hal ini dapat dilakukan karena
an sebuah algoritma dimana setiap penempuh tes mendapatkan sebuah tes yang merupakan pengukuran yang baik terhadap individu tersebut (Embretson & Reise, 2000). merupakan generasi kedua dari penggunaan komputer untuk pengetesan setelah CT , 1989). Alur pengadministrasian tes melalui CAT berbeda dengan PPT maupun CT
Apabila penempuh tes menjawab salah pada item yang diberikan,
berikutnya yang lebih mudah. Sebaliknya, bila dapat menjawab benar, item diberikan yang lebih sukar. Dari penjelasan ini, diketahui bahwa pengukuran kemampuan individu dengan menggunakan CAT dengan pendekatan IRT memiliki kelebihan
yang berbasis pendekatan klasik. Beberapa keunggulan dari CAT, seperti aman karena tersimpan dalam komputer serta setiap peserta tes mendapatkan
tidak diperlukannya lembar jawaban tes, serta tes dapat diskor dengan segera
untukmenampilkan item-tes yang sama dengan yang ada di lembar item-tes. Pemanfaatan komputer seperti ini memiliki beberapa kelebihan, seperti penyekoran lebih cepat, pelaporan dan interpretasi yang segera, ang lebih baik, meningkatkan keamanan tes, serta mengurangi error pengukuran. Bentuk pengetesan komputer ini disebut Bunderson dkk (1989) merupakan generasi
Seiiring perkembangan teknologi, teori pengukuran psikologi pun mengalami perkem-(Crocker & Algina, 1986), (Anastasi &Urbina, 1997). Sejumlah pandangan pendekatan IRT adalah: urutan item tidak menjadi masalah, item yang sedikit peserta tes dapat memperoleh seperangkat item yang berbeda ndividu dan kemampuan item berada dalam
Dalam perkembangan selanjutnya, penggunaan pendekatan IRT dalam pengetesan arena kemampuan individu dan kemampuan item dapat disesuaikan dengan Pemanfaatan komputer seperti ini disebut sebagai Computerized
dalam komputerseperti CT, penempuh tes. Penyebutan adaptif ini karena komputer digunakan untuk mengatur item yang akan diberikan berikutnya kepada sebelumnya. Hal ini mengakibatkan individu yang memiliki kemampuan tinggi akan mendapatkan item yang berbeda dibandingkan individu yang Hal ini dapat dilakukan karenaCAT menggunakan an sebuah algoritma dimana setiap penempuh tes mendapatkan sebuah tes yang merupakan pengukuran yang baik terhadap individu tersebut (Embretson & Reise, 2000). k pengetesan setelah CT berbeda dengan PPT maupun CT
pada item yang diberikan,maka komputer , bila dapat menjawab benar, item . Dari penjelasan ini, diketahui bahwa pengukuran kemampuan individu dengan menggunakan CAT dengan pendekatan IRT memiliki kelebihan eberapa keunggulan dari CAT, sepertites lebih aman karena tersimpan dalam komputer serta setiap peserta tes mendapatkan item yang berbeda, tidak diperlukannya lembar jawaban tes, serta tes dapat diskor dengan segera (Wainer, 1990).
Gambar 1.
Karena sifatnyayang adaptif,
standard error of measurement
konvensional (Embretson & Reise,
sebuah tes prestasi belajar hanya dibutuhkan 30% hingga 50% dari keseluruhan item tes untuk mencapai tingkat presisi yang sama dengan
Schedule of Nonadaptive and Adaptive Personality
keseluruhan item (Simms & Clark, 2005).
kepada penempuh tes, maka secara langsung akan mengurangi jumlah waktu yang dibutu untuk mengadministrasikan tes (Bunderson dkk, 1989).
Pengadministrasian tes secara adaptif bukanlah hal yang baru dalam psikologi. Tes Inteligensi Stanford-Binet (SB) yang masih digunakan sampai saat ini
pengadministrasian tes yang adaptif
sesuai dengan kemampuan setiap penempuh tes. dengan CAT. Misalnya, item tes yang tersedia
kronologis apabila kira-kira 50% dari anak selanjutnya, memberikan item yang
mengenai kemampuan setiap penempuh tes. Konsekuensinya, bila
mengenai kemampuan seorang penempuh tes, maka item pertama yang diberikan dapat berbeda dengan penempuh tes lain, meskipun
selanjutnya ditentukan berdasarkan respons penempuh
besar item dapat dijawab benar dari suatu tingkatan usia, maka akan diberikan item untuk tingkatan usia yang lebih tinggi.
sebagian besar item dari suatu tingkatan usia, maka akan diberikan item usia lebih rendah. Dengan demikian, p
penempuh tes dengan penempuh tes yang lain. Penghentian tes kepada setiap penempuh te dilakukan apabila telah diperoleh
Di Amerika Serikat, CAT
dengan diadakannya konferensi CAT pertama di Washington, Amerika Serikat, pada tahu
Perkembangan penggadministrasian tes melalui CAT selanjutnya sangat meningkat pesat. Pada tahun 1990-an tercatat hanya sekitar ratusan CAT, namun menjadi lebih dari satu juta pada tahun
1. Mulai dengan perkiraan kemampuan awal
2. Memilih dan menampilkan item yang optimal
5. Aturan berhenti terpenuhi? 6. Hentikan Tes Tidak Ya
Gambar 1. Alur CAT (diambil dari Yulianto, 2008)
yang adaptif, CAT berbasis IRT biasanya berisilebih sedikit
standard error of measurement (SEM) yang lebih kecil dibandingkan pengukuran (Embretson & Reise, 2000). Olsen (dalam Bunderson dkk, 1989)
sebuah tes prestasi belajar hanya dibutuhkan 30% hingga 50% dari keseluruhan item tes untuk mencapai tingkat presisi yang sama dengan PPT. Pada penelitian lain, yaitu validitasi versi CAT
dule of Nonadaptive and Adaptive Personality (SNAP), hanya dibutuhkan sekitar 50% dari keseluruhan item (Simms & Clark, 2005). Dengan berkurangnya jumlah item yang diberikan kepada penempuh tes, maka secara langsung akan mengurangi jumlah waktu yang dibutu untuk mengadministrasikan tes (Bunderson dkk, 1989).
Pengadministrasian tes secara adaptif bukanlah hal yang baru dalam psikologi. Tes Binet (SB) yang masih digunakan sampai saat ini, sebenarnya merupakan yang adaptif karena tester akan memberikan tingkat kesukaran item yang sesuai dengan kemampuan setiap penempuh tes. Ada kesamaan prinsip pengadministrasian tes SB
item tes yang tersedia; Binet memilih item untuk setiap tingkatan usia kira 50% dari anak-anak pada usia tersebut dapat menjawab benar. Prinsip
yang pertama; item yang diberikan berdasarkan perkiraan tester mengenai kemampuan setiap penempuh tes. Konsekuensinya, bila diperoleh informasi awal mengenai kemampuan seorang penempuh tes, maka item pertama yang diberikan dapat berbeda meskipun dengan tingkat usia kronologis yang sama. Pemberian item selanjutnya ditentukan berdasarkan respons penempuh tes pada itemsebelumnya.
besar item dapat dijawab benar dari suatu tingkatan usia, maka akan diberikan item
bih tinggi. Sebaliknya; apabila penempuh tes tidak mampu menjawab i suatu tingkatan usia, maka akan diberikan item berikutnya
Dengan demikian, prosedur menghentikan pemberian tesjuga
penempuh tes dengan penempuh tes yang lain. Penghentian tes kepada setiap penempuh te dilakukan apabila telah diperoleh ceiling level dan basal level (Yulianto, 2007).
CAT telah mulai dikembangkan sejak tahun 1970
dengan diadakannya konferensi CAT pertama di Washington, Amerika Serikat, pada tahu
Perkembangan penggadministrasian tes melalui CAT selanjutnya sangat meningkat pesat. Pada an tercatat hanya sekitar ratusan CAT, namun menjadi lebih dari satu juta pada tahun
perkiraan kemampuan awal
2. Memilih dan menampilkan 3. mengevaluasi respons
penempuh tes
4. Estimasi skor dan
standard error score
turan berhenti terpenuhi?
Tidak
lebih sedikititemdan memiliki dibandingkan pengukuran PPT yang am Bunderson dkk, 1989)mengemukakan pada sebuah tes prestasi belajar hanya dibutuhkan 30% hingga 50% dari keseluruhan item tes untuk Pada penelitian lain, yaitu validitasi versi CAT dari (SNAP), hanya dibutuhkan sekitar 50% dari Dengan berkurangnya jumlah item yang diberikan kepada penempuh tes, maka secara langsung akan mengurangi jumlah waktu yang dibutuhkan
Pengadministrasian tes secara adaptif bukanlah hal yang baru dalam psikologi. Tes sebenarnya merupakan tester akan memberikan tingkat kesukaran item yang da kesamaan prinsip pengadministrasian tes SB ; Binet memilih item untuk setiap tingkatan usia anak pada usia tersebut dapat menjawab benar. Prinsip ; item yang diberikan berdasarkan perkiraan tester diperoleh informasi awal mengenai kemampuan seorang penempuh tes, maka item pertama yang diberikan dapat berbeda dengan tingkat usia kronologis yang sama. Pemberian item sebelumnya.Apabila sebagian besar item dapat dijawab benar dari suatu tingkatan usia, maka akan diberikan item selanjutnya apabila penempuh tes tidak mampu menjawab berikutnya dari tingkatan jugadapatberbeda satu penempuh tes dengan penempuh tes yang lain. Penghentian tes kepada setiap penempuh tes
.
tahun 1970-an. Hal ini ditandai dengan diadakannya konferensi CAT pertama di Washington, Amerika Serikat, pada tahun 1975. Perkembangan penggadministrasian tes melalui CAT selanjutnya sangat meningkat pesat. Pada an tercatat hanya sekitar ratusan CAT, namun menjadi lebih dari satu juta pada tahun
3. mengevaluasi respons
4. Estimasi skor dan
1999 (Wainer, 2000). Saat ini CAT sudah digunakan pada beberap
GMAT, dan TOEFL. Namun sayangnya, CAT belum banyak dimanfaatkan di Indonesia. Berdasarkan pemaparan di atas, peneliti tertarik untuk mengetahui pengadministrasian tes melalui komputer, khususnya CAT. Unt
eksperimen dengan bentuk administrasi tes
skor tes APM yang dihasilkan antara administrasi melalui CT dan melalui CAT.
diperbandingkan pula skor tes setiap partisipan ketika diadministrasikan melalui PPT dan melalui administrasi komputer.Ketika sebuah tes akan diadministrasi
CAT, batas waktu pengerjaan tes perl
bersifat murni power test karena tidak ada batas waktu pengerjaan yang ketat. Berdasarkan meta analisis dari Mead dan Dragrow (dalam Zickar, Overton, Taylor, & Harms, 1999) apabila sebuah yang bersifat power test dipindahkan ke komputer, tidak akan mengubah integritas dari konstruk yang diukur. Pertanyaan muncul saat menentukan batas waktu pengerjaan ketika tes diadminis trasikan melalui komputer. Apakah dengan menggunakan batas waktu yang sama dapat men keakuratan yang sama dengan PPT
waktu pengerjaan tes lebih singkat namun dengan keakuratan hasil yang sama atau bahkan lebih besar. Dikaitkan dengan administrasi melalui komputer, didu
dibandingkan dengan administrasi PPT. Hal ini berdasarkan penelitian Zickar dkk (1999), dimana hanya 64% subyek yang berhasil mengerjakan 16 buah item dengan waktu 60 menit melalui CAT, sedangkan hanya dibutuhkan 40 meni
administrasi PPT. Padahal tidak semua item akan ditampilkan pada CAT, seharusnya waktu pengerjaan tes tidak lebih dari batas waktu dari PPT.
penting karena semua item tes akan ditampilkan.
untuk menampilkan semua item sama dengan pengadministrasian dalam bentuk diperlukan waktu yang lebih panjang.
CAT merupakan tantangan tersendiri untuk diteliti. dijadikan IV kedua untuk melihat pengaruh
Berdasarkan pemaparan di atas, yaitu:
1. Apakah skor tes APM ketika diadministrasikan melalui partisipan yang sama ketika diadministrasikan melalui komputer?
2. Apakah bentuk administrasi tes berpengaruh terhadap performa tes APM? 3. Apakah batas waktu pengerjaa
4. Apakah interaksi antara bentuk administrasi tes dan batas waktu pengerjaan tes berpengaruh terhadap performa tes APM?
Metode Penelitian
Partisipan dan Pengambilan Sampel Seratus duapuluh mahasiswa S1 reguler Indonesia, terlibat dalam penelitian ini.
yaitu partisipan yang kebetulan ingin terlibat dalam penelitiam, karena k sukarela.
. Saat ini CAT sudah digunakan pada beberapa tes berskala besar, Namun sayangnya, CAT belum banyak dimanfaatkan di Indonesia. Berdasarkan pemaparan di atas, peneliti tertarik untuk mengetahui
pengadministrasian tes melalui komputer, khususnya CAT. Untuk itu, dilakukan sebuah penelitian dengan bentuk administrasi tessebagaiindependentvariable(IV),
skor tes APM yang dihasilkan antara administrasi melalui CT dan melalui CAT.
diperbandingkan pula skor tes setiap partisipan ketika diadministrasikan melalui PPT dan melalui Ketika sebuah tes akan diadministrasikan melalui komputer, baik
CAT, batas waktu pengerjaan tes perlu diperhatikan. Hal ini tidak menjadi masalah apabila tes karena tidak ada batas waktu pengerjaan yang ketat. Berdasarkan meta analisis dari Mead dan Dragrow (dalam Zickar, Overton, Taylor, & Harms, 1999) apabila sebuah
dipindahkan ke komputer, tidak akan mengubah integritas dari konstruk yang diukur. Pertanyaan muncul saat menentukan batas waktu pengerjaan ketika tes diadminis trasikan melalui komputer. Apakah dengan menggunakan batas waktu yang sama dapat men
PPT. Sebuah bentuk administrasi tes dikatakan efektif apabila batas lebih singkat namun dengan keakuratan hasil yang sama atau bahkan lebih Dikaitkan dengan administrasi melalui komputer, diduga dibutuhkan waktu yang lebih lama dibandingkan dengan administrasi PPT. Hal ini berdasarkan penelitian Zickar dkk (1999), dimana hanya 64% subyek yang berhasil mengerjakan 16 buah item dengan waktu 60 menit melalui CAT, hanya dibutuhkan 40 menit untuk mengerjakan jumlah item yang sama dengan Padahal tidak semua item akan ditampilkan pada CAT, seharusnya waktu pengerjaan tes tidak lebih dari batas waktu dari PPT. Pada CT, penentuan batas waktu menjadi es akan ditampilkan. Dengan demikian, apakah waktu yang dibutuhkan untuk menampilkan semua item sama dengan pengadministrasian dalam bentuk
diperlukan waktu yang lebih panjang. Menurut Wainer dkk (1990), penggunaan batas waktu pada merupakan tantangan tersendiri untuk diteliti. Oleh karena itu, batas waktu pengerjaan tes dijadikan IV kedua untuk melihat pengaruh terhadap performa tes.
Berdasarkan pemaparan di atas, penelitian ini akan mengajukan empat masalah penelitian,
tes APM ketika diadministrasikan melalui PPT berbeda dengan yang sama ketika diadministrasikan melalui komputer?
Apakah bentuk administrasi tes berpengaruh terhadap performa tes APM? Apakah batas waktu pengerjaan tes berpengaruh terhadap performa tes APM?
Apakah interaksi antara bentuk administrasi tes dan batas waktu pengerjaan tes berpengaruh
Pengambilan Sampel
Seratus duapuluh mahasiswa S1 reguler semester 2 dan semester 4, Fakultas Psikologi, Universitas Indonesia, terlibat dalam penelitian ini. Pengambilan sampel menggunakan
yaitu partisipan yang kebetulan ingin terlibat dalam penelitiam, karena keikutsertaan
a tes berskala besar,seperti GRE, Namun sayangnya, CAT belum banyak dimanfaatkan di Indonesia.
Berdasarkan pemaparan di atas, peneliti tertarik untuk mengetahui efektivitas dari dilakukan sebuah penelitian yaitu membandingkan skor tes APM yang dihasilkan antara administrasi melalui CT dan melalui CAT. Selain itu, akan diperbandingkan pula skor tes setiap partisipan ketika diadministrasikan melalui PPT dan melalui kan melalui komputer, baik CT maupun menjadi masalah apabila tes karena tidak ada batas waktu pengerjaan yang ketat. Berdasarkan meta-analisis dari Mead dan Dragrow (dalam Zickar, Overton, Taylor, & Harms, 1999) apabila sebuah PPT
dipindahkan ke komputer, tidak akan mengubah integritas dari konstruk yang diukur. Pertanyaan muncul saat menentukan batas waktu pengerjaan ketika tes diadminis-trasikan melalui komputer. Apakah dengan menggunakan batas waktu yang sama dapat mencapai
tes dikatakan efektif apabila batas lebih singkat namun dengan keakuratan hasil yang sama atau bahkan lebih ga dibutuhkan waktu yang lebih lama dibandingkan dengan administrasi PPT. Hal ini berdasarkan penelitian Zickar dkk (1999), dimana hanya 64% subyek yang berhasil mengerjakan 16 buah item dengan waktu 60 menit melalui CAT, t untuk mengerjakan jumlah item yang sama dengan Padahal tidak semua item akan ditampilkan pada CAT, seharusnya waktu , penentuan batas waktu menjadi Dengan demikian, apakah waktu yang dibutuhkan untuk menampilkan semua item sama dengan pengadministrasian dalam bentuk PPT, ataukah Menurut Wainer dkk (1990), penggunaan batas waktu pada Oleh karena itu, batas waktu pengerjaan tes
an empat masalah penelitian,
berbeda dengan skor tes dari
n tes berpengaruh terhadap performa tes APM?
Apakah interaksi antara bentuk administrasi tes dan batas waktu pengerjaan tes berpengaruh
, Fakultas Psikologi, Universitas Pengambilan sampel menggunakan incidental sampling, eikutsertaannya bersifat
Manipulasi
Bentuk administrasi tes melalui komputer
mengadministrasikan tes melalui komputer dengan urutan item yang sama dengan PPT, sedangkan CAT mengadministrasikan tes secara adaptif.
program FastTest Pro versi 1.6 yang diproduksi oleh Assessment Systems. pengerjaan (IV2)dimanipulasi dalam
PPT), 50 menit (dua kali dari PPT), dan tanpa batas waktu kelompok perlakuan., yaitu1) CT
3) CT tanpa batas waktu pengerjaan, 4) CAT dengan batas waktu 25 menit, 5) CAT dengan batas waktu 50 menit, dan 6) CAT tanpa batas waktu pengerjaan.
Pengukuran
DV diukur dengan menggunakan
yang seperti biasa digunakan. Tes ini
menggunakan program QUEST yang dikeluarkan oleh ACER. dan bagian 2 dari tes, meskipun hanya bagian 2 (36 item) yang penelitian, tes akan diskor dengan metode
dimasukkan dalam item bank. Tipe dan Desain Penelitian
Penelitian ini bertipe controlled laboratory
seketat mungkin variabel-variabel sekunder yang akan mempengaruhi hasil penelitian. Penelitian dilakukan pada laboratorium komputer yang kedap suara.
penelitian terdiri dari partisipan yang berbe
subject,2x3 randomized factorial design,
Prosedur
Sebelum penelitian, setiap partisipan diberikan tes APM dengan administrasi PPT Instruksi diberikan sama seperti
dikerjakan selama 12 menit, dilanjutkan set 2 partisipan dirandomisasi ke dalam
berisi 20 orang partisipan. Pelaksanaan penelitian tergantung dari kesediaan setiap partisipan mendatangi laboratorium komputer
serentak. Pada semua pengadministrasian komputer, instruksi diberikan seca
monitor. Hal ini dilakukan karena dianggap partisipan telah mengetahuinya pada administrasi PPT sebelumnya. Setelah menyelesaikan tes, peneliti mengucapkan terima kasih kepada partisipan. Untuk CT, partisipan diharapkan mengerjakan s
diijinkan melewati atau tidak menjawab item yang diberikan. administrasinya yang adaptif, CAT memerlukan prosedur khusus. faktor-faktor yang perlu diperhatikan dalam CAT menurut (
a. Item bank. Idealnya, item bank
parameter kesukaran tersebar diantara rentang kemampuan (Embretson & Embretson dan Reise (2000) menyarankan sekitar 100 buah item yang ada dalam Namun karena penelitian ini untuk membandingk
yang berbeda, maka item bank
melalui komputer (IV1) dimanipulasi dalam 2 bentuk, yaitu
mengadministrasikan tes melalui komputer dengan urutan item yang sama dengan PPT, sedangkan mengadministrasikan tes secara adaptif. Kedua administrasi komputer ini menggunakan
yang diproduksi oleh Assessment Systems. Sedangkan b dimanipulasi dalam3 bentuk, yaitu 25menit(sama seperti batas
i PPT), dan tanpa batas waktu. Dengan demikian, akan ada 6 buah 1) CTdengan bataswaktu 25 menit,2) CTdengan batas waktu
3) CT tanpa batas waktu pengerjaan, 4) CAT dengan batas waktu 25 menit, 5) CAT dengan batas waktu 50 menit, dan 6) CAT tanpa batas waktu pengerjaan.
diukur dengan menggunakan Raven’s Advance Progressive Matrices (APM) yang berasal dari PPT yang seperti biasa digunakan. Tes ini telah dikalibrasi dengan model IRT satu parameter QUEST yang dikeluarkan oleh ACER. Penelitian ini menggunakan bagian 1 dan bagian 2 dari tes, meskipun hanya bagian 2 (36 item) yang akan diskor.
penelitian, tes akan diskor dengan metode maximum likehood. Untuk CAT, selur
controlled laboratory experiment dikarenakan dilakukan
variabel sekunder yang akan mempengaruhi hasil penelitian. Penelitian rium komputer yang kedap suara. Oleh karena ada 2IV
penelitian terdiri dari partisipan yang berbeda, maka desain penelitian ini
2x3 randomized factorial design, pretest-posttest.
penelitian, setiap partisipan diberikan tes APM dengan administrasi PPT
Instruksi diberikan sama seperti pengadministrasian APM ada umumnya, dimana bagian dikerjakan selama 12 menit, dilanjutkan set 2 selama 25 menit. Dua minggu kemudian, partisipan dirandomisasi ke dalam salah satu dari 6 kelompok penelitian sehingga
Pelaksanaan penelitian tergantung dari kesediaan setiap partisipan
mendatangi laboratorium komputer, sehingga pengadministrasian tes tidak dilakukan secara Pada semua pengadministrasian komputer, instruksi diberikan seca
monitor. Hal ini dilakukan karena dianggap partisipan telah mengetahuinya pada administrasi PPT Setelah menyelesaikan tes, peneliti mengucapkan terima kasih kepada partisipan. Untuk CT, partisipan diharapkan mengerjakan seluruh item APM dengan urutan yang
diijinkan melewati atau tidak menjawab item yang diberikan. Di lain pihak, d administrasinya yang adaptif, CAT memerlukan prosedur khusus. Prosedur untuk CAT,
diperhatikan dalam CAT menurut (Embretson & Reise
item bank berisi sejumlah item dengan kemampuan daya beda tinggi parameter kesukaran tersebar diantara rentang kemampuan (Embretson &
Embretson dan Reise (2000) menyarankan sekitar 100 buah item yang ada dalam
Namun karena penelitian ini untuk membandingkan skor tes APM pada bentuk administrasi
item bank hanya berasal dari 36 item set 2 tes APM yang telah dikalibrasi 2 bentuk, yaitu CT dan CAT. CT mengadministrasikan tes melalui komputer dengan urutan item yang sama dengan PPT, sedangkan komputer ini menggunakan Sedangkan batas waktu (sama seperti bataswaktu pengerjaan Dengan demikian, akan ada 6 buah dengan batas waktu50 menit, 3) CT tanpa batas waktu pengerjaan, 4) CAT dengan batas waktu 25 menit, 5) CAT dengan batas
(APM) yang berasal dari PPT telah dikalibrasi dengan model IRT satu parameter Penelitian ini menggunakan bagian 1 diskor. Pada semua kondisi Untuk CAT, seluruh 36 item
dikarenakan dilakukan dengan mengkontrol variabel sekunder yang akan mempengaruhi hasil penelitian. Penelitian IVdansetiap kelompok esain penelitian ini adalah between
penelitian, setiap partisipan diberikan tes APM dengan administrasi PPT di dalam kelas. , dimana bagian 1 (set 1) Dua minggu kemudian, setiap sehingga setiap kelompok Pelaksanaan penelitian tergantung dari kesediaan setiap partisipan untuk , sehingga pengadministrasian tes tidak dilakukan secara Pada semua pengadministrasian komputer, instruksi diberikan secara tertulis pada layar monitor. Hal ini dilakukan karena dianggap partisipan telah mengetahuinya pada administrasi PPT
Setelah menyelesaikan tes, peneliti mengucapkan terima kasih kepada partisipan. eluruh item APM dengan urutan yangsamadan tidak
Di lain pihak, dengan sifat untuk CAT, berdasarkan Reise, 2000):
kemampuan daya beda tinggi serta parameter kesukaran tersebar diantara rentang kemampuan (Embretson & Reise, 2000). Embretson dan Reise (2000) menyarankan sekitar 100 buah item yang ada dalam item bank. pada bentuk administrasi yang telah dikalibrasi.
b. Mengadministrasikan item pertama
diperkirakan berdistribusi secara normal. Oleh karena itu, item yang diadministrasika kali adalah dipilih secara acak oleh komputer de
(berdasarkan rekomendasi dari Embretson dan Reise
c. Pemberian skor. Dalam IRT ada tiga metode utama untuk mengestimasi kemampuan penempuh tes, yaitu maximum likelihood
memilih ML karena kelebihan ML adalah tidak bias, efisien, dan error diasumsikan berdistribusi normal Embretson & Reise, 2000).
d. Pemilihan item selanjutnya. Peneliti memilih strategi
item yang memiliki parameter kesukaran mendekati perkiraan kemampuan penempuh tes saat itu. Dengan demikian, diharapkan perkiraan terhadap kemampuan subyek penelitian akan lebih akurat dengan jumlah item yang lebih sedikit.
paling sering digunakan (Thiessen & Mislevy, 1990). e. Menghentikan Tes. Teknik yang digunakan adalah
Embretson dan Reise (2000) yang mengatakan bahwa penggunaan aturan pemberhent
dengan standard error (SE) membuat penggunaan terbaik dari algoritma CAT sehingga lebih baik. Aturan penghentiannya
dari Blais dan Raiche (2002) yang menemukan bahwa apabila S.E. kemampuan individu hanya berbeda
Hasil dan Pembahasan
Dari tabel 1 diketahui bahwawaktu pengerjaan 25 menit, sedangkan nilai dengan batas waktu yang sama.
kelompok CT dengan batas waktu 50 menit, sedangkan skor tertinggi partisipan berbeda pada kelompok
batas waktu pengerjaan. Meskipun demikian, Hasil uji F dari data di atas diperoleh nilai F sebesar 0,721 (p>0,05) sehingga dapat dikatakan tidak ada
diantara kelompok penelitian. Dengan kata lain, kelompok penelitian ini memiliki kesetaraan
Salah satu kriteria metode pengadministrasian tes melalui komputer
apabila dapat menghasilkan skor tes yang tidak berbeda dengan PPT dari partisipan yang sama. Tabel 2 memberikanhasil uji-t berpasangan (
antara PPT dan CT serta antara PPT dan CAT. Ada perbedaan signifikan pada skor tes ketika subyek yang sama diadministrasikan melalui PPT dan melalui CT (t=3,4
sebenarnya tidak diharapkan terjadi karena kedua skor berasal dari kelompok namun dengan bentuk administrasi tes yang berbeda
partisipan pada CT lebih rendah dib
Hasil ini sama seperti pada penelitian yang dilakukan oleh Hedl, O’Neil, dan Hanson (dalam Bunderson dkk, 1989), dimana mean skor S
melalui PPT dibandingkan pada administrasi melalui CT.
ditemukan antara administrasi PPT dan administrasi CAT (t=0,547, p>0,05). Hasil sesuai harapan
Mengadministrasikan item pertama. Kemampuan seluruh partisipan
diperkirakan berdistribusi secara normal. Oleh karena itu, item yang diadministrasika dipilih secara acak oleh komputer dengan nilai kesukaran (b) antara berdasarkan rekomendasi dari Embretson dan Reise, 2000).
Dalam IRT ada tiga metode utama untuk mengestimasi kemampuan penempuh
maximum likelihood (ML), Maximum a Posterori, dan Expected a P
kelebihan ML adalah tidak bias, efisien, dan error diasumsikan berdistribusi normal Embretson & Reise, 2000).
Peneliti memilih strategi maximum item information
item yang memiliki parameter kesukaran mendekati perkiraan kemampuan penempuh tes saat Dengan demikian, diharapkan perkiraan terhadap kemampuan subyek penelitian akan lebih akurat dengan jumlah item yang lebih sedikit. Maximum item information
(Thiessen & Mislevy, 1990).
eknik yang digunakan adalah variable length,berdasarkan
Embretson dan Reise (2000) yang mengatakan bahwa penggunaan aturan pemberhent
(SE) membuat penggunaan terbaik dari algoritma CAT sehingga lebih nya adalah apabila S.E. ≤0,4. Aturan ini berdasarkan hasil penelitian dari Blais dan Raiche (2002) yang menemukan bahwa apabila S.E. ≤0,40 maka S.E. dari tingkat kemampuan individu hanya berbeda sebesar 0,03.
diketahui bahwa mean skor terbesar (0,7295) pada kelompok CT dengan batas waktu pengerjaan 25 menit, sedangkan nilai mean terkecil (0,4082) berasal dari kelompok CAT dengan batas waktu yang sama. Skor partisipan terendah, yaitu sebesar
kelompok CT dengan batas waktu 50 menit, sedangkan skor tertinggi (1,890
pada kelompok CAT dengan batas waktu 50 menit serta kelompok CAT tanpa Meskipun demikian, Hasil uji F dari data di atas diperoleh nilai F sebesar p>0,05) sehingga dapat dikatakan tidak ada perbedaan signifikan pada
ara kelompok penelitian. Dengan kata lain, kelompok partisipan yang digunakan dalam kesetaraan dalam kemampuan penalaran abstrak yang diukur oleh tes APM.
metode pengadministrasian tes melalui komputer
apabila dapat menghasilkan skor tes yang tidak berbeda dengan PPT dari partisipan yang sama. t berpasangan (paired-sample t-test)untuk perbandingan skor
antara PPT dan CT serta antara PPT dan CAT. Ada perbedaan signifikan pada skor tes ketika subyek yang sama diadministrasikan melalui PPT dan melalui CT (t=3,479, p<0,05).
sebenarnya tidak diharapkan terjadi karena kedua skor berasal dari kelompok namun dengan bentuk administrasi tes yang berbeda dalam jangka 2 minggu
lebih rendah dibandingkan ketika pengadministrasian PPT
Hasil ini sama seperti pada penelitian yang dilakukan oleh Hedl, O’Neil, dan Hanson (dalam Bunderson dkk, 1989), dimana mean skor Slossen Inteligence Test lebih besar pada administrasi dibandingkan pada administrasi melalui CT. Perbedaan skor yang signifikan tidak ditemukan antara administrasi PPT dan administrasi CAT (t=0,547, p>0,05). Hasil sesuai harapan partisipan pada penelitian ini diperkirakan berdistribusi secara normal. Oleh karena itu, item yang diadministrasikan pertama ) antara -0,5 hingga 0,5
Dalam IRT ada tiga metode utama untuk mengestimasi kemampuan penempuh
Expected a Posteriori. Peneliti kelebihan ML adalah tidak bias, efisien, dan error diasumsikan berdistribusi
maximum item information, yaitu memilih item yang memiliki parameter kesukaran mendekati perkiraan kemampuan penempuh tes saat Dengan demikian, diharapkan perkiraan terhadap kemampuan subyek penelitian akan lebih
ormation adalah strategi yang
berdasarkanrekomendasi dari Embretson dan Reise (2000) yang mengatakan bahwa penggunaan aturan pemberhentian item (SE) membuat penggunaan terbaik dari algoritma CAT sehingga lebih 0,4. Aturan ini berdasarkan hasil penelitian ,40 maka S.E. dari tingkat
skor terbesar (0,7295) pada kelompok CT dengan batas terkecil (0,4082) berasal dari kelompok CAT Skor partisipan terendah, yaitu sebesar -1,586, berada pada 1,890) berasal dari 2 CAT dengan batas waktu 50 menit serta kelompok CAT tanpa Meskipun demikian, Hasil uji F dari data di atas diperoleh nilai F sebesar perbedaan signifikan pada mean skor tes APM yang digunakan dalam dalam kemampuan penalaran abstrak yang diukur oleh tes APM. metode pengadministrasian tes melalui komputer yang efektif adalah apabila dapat menghasilkan skor tes yang tidak berbeda dengan PPT dari partisipan yang sama. untuk perbandingan skortes APM antara PPT dan CT serta antara PPT dan CAT. Ada perbedaan signifikan pada skor tes ketika subyek 79, p<0,05). Adanya perbedaan ini sebenarnya tidak diharapkan terjadi karena kedua skor berasal dari kelompok partisipan yang sama dalam jangka 2 minggu. Bahkan mean skor andingkan ketika pengadministrasian PPT (0,4879 < 0,6737). Hasil ini sama seperti pada penelitian yang dilakukan oleh Hedl, O’Neil, dan Hanson (dalam lebih besar pada administrasi Perbedaan skor yang signifikan tidak ditemukan antara administrasi PPT dan administrasi CAT (t=0,547, p>0,05). Hasil sesuai harapan
peneliti bahwa meskipun CAT mengadministrasikan item lebih sedikit dibandingkan P perbedaan skor diantara keduanya.
Tabel 1. Statistik deskriptif skor tes dari setiap kelompok penelitian
Ba tas Wak tu 25 menit ( 50 menit ( Tanpa batas waktu (
Total
(
Keterangan : angka yang dicetak tebal adalah
dan angka di dalam kurung adalah skor (minimum
Tabel 2. hasil uji-t untuk perbandingan PPT dan administrasi komputer
perbandingan PPT CT PPT CAT Tabel Bentuk Administrasi Batas waktu Interaksi
Dari tabel 3 diketahui ditemukan bentuk administrasikomputer,yait
disimpulkan tidak ada pengaruh bentuk administrasi terhadap skor tes.
waktu pengerjaan tes tidak berpengaruh terhadap skor tes karena ditemukan tidak perbedaan yang signifikan diantara 3 jenis batas waktu (
untuk interaksi kedua variabel bebas (F=0,973, p>0,05) IV tidak berpengaruh.
peneliti bahwa meskipun CAT mengadministrasikan item lebih sedikit dibandingkan P perbedaan skor diantara keduanya.
Statistik deskriptif skor tes dari setiap kelompok penelitian Administrasi CT CAT 0,7295 0,7431 (-0,679 – 1,711) 0,4082 0,5628 (-0,680 – 1,246) (-.680 0,6676 0,7336 (-1,586 – 1,547) 0,7031 0,6309 (-0,538 – 1,890) (-1.586 0,6241 0,6079 (-0.398 – 1,546) 0,5294 0,7330 (-0,690 – 1,890) (-.398
0,6737
0,6870
(-1,586 – 1,711)
0,5469
0,6466
(-0,969 – 1,890)
(-1.586
angka yang dicetak tebal adalah mean, angka yang dicetak miring adalahngka di dalam kurung adalah skor (minimum – maksimum).
t untuk perbandingan PPT dan administrasi komputer
Mean SD n t 0,6737 0,4879 0,687 0,834 60 3,479 0,5469 0,5059 0,646 0,799 60 0,547
Tabel 3. uji-F faktorial untuk skor tes
IV F p
Bentuk Administrasi 0,014 0,905 0,357 0,700 0,973 0,381
ketahui ditemukan tidak adanya perbedaan yang signifikan pada skor diantara 2 yaituantara CTdan CAT(F=0,014, p>0,005).Dengan
disimpulkan tidak ada pengaruh bentuk administrasi terhadap skor tes. Begitu juga untuk batas berpengaruh terhadap skor tes karena ditemukan tidak perbedaan yang signifikan diantara 3 jenis batas waktu (F=0,357, p>0,05). Terakhir, tidak ada perbedaan signifikan
ariabel bebas (F=0,973, p>0,05), sehingga dapat dikatakan interak
peneliti bahwa meskipun CAT mengadministrasikan item lebih sedikit dibandingkan PPT, tidak ada
Statistik deskriptif skor tes dari setiap kelompok penelitian
Total .5687 .6706 .680 – 1.711) .6853 .6756 1.586 – 1.890) .5767 .6664 .398 – 1.890)
.6103
.6673
1.586 – 1.890)
ngka yang dicetak miring adalah simpang baku,
t untuk perbandingan PPT dan administrasi komputer
P 0,001
0,587
yang signifikan pada skor diantara 2 Dengandemikian, dapat Begitu juga untuk batas berpengaruh terhadap skor tes karena ditemukan tidak perbedaan yang tidak ada perbedaan signifikan , sehingga dapat dikatakan interaksi kedua
Telah dikatakan bahwa salah satu keunggulan dari
lebih sedikit sehingga waktu pengadministrasian tes menjadi lebih singkat.
CAT mengadministrasikan item dengan jumlah lebih sedikit dibandingkan CT, yaitu sekitar 11 item, dibandingkan CT yang mengadministrasikan
Tabel 4. Rata-rata jumlah soal yang dikerjakan
Admini stras i CT CAT Total
Hal ini didukung oleh hasil analisis statistik bentuk administrasi (F=1843,296, p<0,05) lebih sedikit dibandingkan CT.
Tabel 5. Hasil Uji
IV Bentuk administrasi Batas waktu Interaksi
Kesimpulan dan Saran
Dari hasil-hasil di atas diketahui bahwa ditemukan tidak adanya perbedaan antara administrasi PPT dan CAT pada partisipan
menggantikan PPT untuk mengadministrasikan tes APM. H
yang diadministrasikan oleh CAT. Hanya dengan mengadministrasikan 11
menghasilkan skor tes yang sama dengan PPT yang mengadministrasikan seluruh 36 item tes APM. Tidak ditemukan hasil yang sama
sesuai dengan pendapat Embretson dan Reise (2000) item dibandingkan pengukuran PPT
diberikan kepada penempuh tes, maka secara langsung akan mengurangi jumlah waktu yang dibutuhkan untuk mengadministrasikan tes (Bunderson dkk, 1989).
pengerjaan ternyata tidak memberikan perbedaan dalam skor tes. Baik diberikan batas waktu menit, 25 menit, atau tanpa batas waktu,
melalui CAT tidak berbeda satu sama lain. Hal ini
dengan administrasi PPT, yaitu selama 25 menit, sebagian besar
menyelesaikan tes. Hal ini ditunjukkan oleh tidaknya perbedaan jumlah item diantara waktu pengerjaan yang berbeda, yaitu
bahwa CAT lebih efektif dalam mengadministrasikan tes APM dibandingkan PPT maupun CT. alah satu keunggulan dariCAT adalahdapatmengadministrasikan
lebih sedikit sehingga waktu pengadministrasian tes menjadi lebih singkat. Sesuai dengan dugaan, dengan jumlah lebih sedikit dibandingkan CT, yaitu sekitar 11 item, dibandingkan CT yang mengadministrasikan seluruh item APM (tabel 4).
rata jumlah soal yang dikerjakan partisipan pada setiap kelompok Batas Waktu
25’ 50’ Tanpa batas
33,80 33,25 33,57
11,55 11,25 11,90
22,68 22,25 22,78
Hal ini didukung oleh hasil analisis statistik (tabel 5) bahwa ada perbedaan
(F=1843,296, p<0,05). Artinya, CAT memang mengadministrasikan item
Hasil Uji-F Faktorial item yang dikerjakan subyek
IV F p Bentuk administrasi 1843,296 0,395 0,079 0,000 0,675 0,924
di atas diketahui bahwa ditemukan tidak adanya perbedaan antara administrasi PPT dan CAT pada partisipanyang sama.Hasil inimenunjukkan
menggantikan PPT untuk mengadministrasikan tes APM. Hal ini juga didukung dengan jumlah item yang diadministrasikan oleh CAT. Hanya dengan mengadministrasikan 11-12 item
menghasilkan skor tes yang sama dengan PPT yang mengadministrasikan seluruh 36 item tes APM. hasil yang sama pada pengadministrasikan melalui CT. Dengan demikian, hasil ini sesuai dengan pendapat Embretson dan Reise (2000) bahwa CAT berbasis IRT berisi lebih sedikit PPT yang konvensional. Dengan berkurangnya jumlah item yang pada penempuh tes, maka secara langsung akan mengurangi jumlah waktu yang dibutuhkan untuk mengadministrasikan tes (Bunderson dkk, 1989). Perbedaan batas waktu pengerjaan ternyata tidak memberikan perbedaan dalam skor tes. Baik diberikan batas waktu
25 menit, atau tanpa batas waktu,meanskortes dariketiga kelompokyang diadministrasikan rbeda satu sama lain. Hal ini karenadengan batas waktu pengerjaan
dengan administrasi PPT, yaitu selama 25 menit, sebagian besar partisipan
Hal ini ditunjukkan oleh tidaknya perbedaan jumlah item diantara waktu pengerjaan yang berbeda, yaitu sekitar 11-12 buah item. Dengan demikian, dapat disimpulkan bahwa CAT lebih efektif dalam mengadministrasikan tes APM dibandingkan PPT maupun CT.
mengadministrasikanitem yang Sesuai dengan dugaan, dengan jumlah lebih sedikit dibandingkan CT, yaitu sekitar 11-12
.
pada setiap kelompok
Total
33,57
11,57 22,57
ada perbedaan yang signifikan pada Artinya, CAT memang mengadministrasikan item yang
000 675 924
di atas diketahui bahwa ditemukan tidak adanya perbedaan skor yang signifikan menunjukkanbahwaCAT dapat al ini juga didukung dengan jumlah item 12 item, CAT mampu menghasilkan skor tes yang sama dengan PPT yang mengadministrasikan seluruh 36 item tes APM. Dengan demikian, hasil ini CAT berbasis IRT berisi lebih sedikit berkurangnya jumlah item yang pada penempuh tes, maka secara langsung akan mengurangi jumlah waktu yang Perbedaan batas waktu pengerjaan ternyata tidak memberikan perbedaan dalam skor tes. Baik diberikan batas waktu 25 yang diadministrasikan dengan batas waktu pengerjaanyang sama partisipan telah berhasil Hal ini ditunjukkan oleh tidaknya perbedaan jumlah item diantara waktu Dengan demikian, dapat disimpulkan bahwa CAT lebih efektif dalam mengadministrasikan tes APM dibandingkan PPT maupun CT.
Penelitian ini telah menunjukkan bahwa CAT dapat menjadi bentuk baru pengadministrasian tes yang efektif. Meskipun demikian,
dilakukan terus menerus mengingat penelitian ini memiliki sejumlah kelemahan memperbanyak partisipan, diharapkan penelitian selanjutnya dapat
keefektivitasan dari CAT. Ditambahkan pula APM sangat diharapkan, mengingat
masyarakat umum.Faktor-faktor psikologis, seperti kecemasan atau motivasi perlu diteliti pengaruhnya terhadap performa mengerjakan tes melalui CAT.
Meskipun demikian, pengembangan
dilakukan di Indonesia. Hal ini menjadi tantangan mengingat pengembangan CAT waktu lebih lama dan biaya yang lebih besar dibandingkan pengembangan PPT.
dikarenakan perlu dilakukan pengembangan infrastruktur komputer, selain pengembangan item item tes itu sendiri termasuk menyediakan
sekitar 5 tahun untuk mengembangkan sistem
tahun, CAT-ASVAB mulai digunakan tahun 1996 (Segall & Moreno, 1999). Selain waktu pengem bangan, biaya pengembangan yang
dana $5,152,544 untuk mengubah Davison, Hjelseth, Angermeyr, Hodges,
pengembangan dan biaya yang besar ini akan sangat berarti dengan kelebihan yang dimiliki CAT dibandingkan PPT atau CT konvensional. Pengembangan CAT, terutama dalam industri dan organisasi, menjadi tantangan sekaligus kemajuan dalam perkembangan pengukuran psikologis di Indonesia (Yulianto, 2007).
Daftar Pustaka
Anastasi, A., & Urbina, S. (1997).
Blais, J. & Raiche, G. (2002). Some Features of the sampling distribution of the ability estimate in computerized adaptive testing according to two stopping rules
11th International Objective Measurement Workshop, New Orleans, April 2002 (tidak dipublikasikan).
Bower, Bruce. (2003) Essence of G: scientists search for the biology smarts. 2003; 163, 6; Academic Research Library. pg. 92.
Bunderson, C.V., Inouye, D. K., & Olsen, J.B. The Four Generations of Computerized Educational Measurement. Dalam Robert L. Linn.
Council on Education & Macmillan Publishing Company. Crocker, Linda, & Algina, James. (1986).
Harcourt Brace Jovanovich College Publishers. Domino, George, & Domino, Marla L
Cambridge, UK: Cambridge University Press. Embretson, S.E, & Reise, S.P. (2000).
Erlbaum Associates, Inc.
Friendenberg, Lisa. (1995). Psychological Testing: Design, Analysis, and
Bacon.
telah menunjukkan bahwa CAT dapat menjadi bentuk baru pengadministrasian skipun demikian, penelitian-penelitian selanjutnya mengenai CAT masih perlu
mengingat penelitian ini memiliki sejumlah kelemahan
memperbanyak partisipan, diharapkan penelitian selanjutnya dapat lebih akurat mengetahui Ditambahkan pula, penggunaan sampel selain mahasiswa
sangat diharapkan, mengingat masih banyaknya tes psikologi dan biasanya digunakan untuk faktor psikologis, seperti kecemasan atau motivasi
perlu diteliti pengaruhnya terhadap performa mengerjakan tes melalui CAT.
Meskipun demikian, pengembangan CAT untuk pengadministrasian tes harus mulai dilakukan di Indonesia. Hal ini menjadi tantangan mengingat pengembangan CAT
waktu lebih lama dan biaya yang lebih besar dibandingkan pengembangan PPT.
perlu dilakukan pengembangan infrastruktur komputer, selain pengembangan item item tes itu sendiri termasuk menyediakan item bank yang memadai. Misalnya, diperlukan waktu sekitar 5 tahun untuk mengembangkan sistemdan setelah melakukanserangkaian uji
ASVAB mulai digunakan tahun 1996 (Segall & Moreno, 1999). Selain waktu pengem bangan, biaya pengembangan yang cukup besar perlu menjadi faktor pertimbangan.
dana $5,152,544 untuk mengubah Minnesota Comprehensive Assessments menjadi CAT (Peterson Hodges, Kochmann, Mattson, & Weiss, 1995).
biaya yang besar ini akan sangat berarti dengan kelebihan yang dimiliki CAT dibandingkan PPT atau CT konvensional. Pengembangan CAT, terutama dalam industri dan organisasi, menjadi tantangan sekaligus kemajuan dalam perkembangan pengukuran psikologis di
Anastasi, A., & Urbina, S. (1997). Psychological Testing. 7th ed. New Jersey: Prentice
Some Features of the sampling distribution of the ability estimate in ive testing according to two stopping rules. Makalah disajikan pada International Objective Measurement Workshop, New Orleans, April 2002 (tidak
Bower, Bruce. (2003) Essence of G: scientists search for the biology smarts. 2003; 163, 6; Academic Research Library. pg. 92.
Bunderson, C.V., Inouye, D. K., & Olsen, J.B. The Four Generations of Computerized Educational Measurement. Dalam Robert L. Linn. Educational Measurement. 3rd ed. New York: American Council on Education & Macmillan Publishing Company.
Crocker, Linda, & Algina, James. (1986). Introduction to Classical and Modern Test Theory
Harcourt Brace Jovanovich College Publishers.
Domino, George, & Domino, Marla L. (2006). The Psychological Testing: an introduction
Cambridge, UK: Cambridge University Press.
Embretson, S.E, & Reise, S.P. (2000). ItemResponseTheory forPsychologist.New
Psychological Testing: Design, Analysis, andUse. Massachusetts:
telah menunjukkan bahwa CAT dapat menjadi bentuk baru pengadministrasian mengenai CAT masih perlu mengingat penelitian ini memiliki sejumlah kelemahan. Dengan lebih akurat mengetahui penggunaan sampel selain mahasiswa dan tes selain biasanya digunakan untuk mengerjakantes, juga
pengadministrasian tes harus mulai dilakukan di Indonesia. Hal ini menjadi tantangan mengingat pengembangan CAT membutuhkan waktu lebih lama dan biaya yang lebih besar dibandingkan pengembangan PPT. Waktu dan biaya ini perlu dilakukan pengembangan infrastruktur komputer, selain pengembangan
item-yang memadai. Misalnya, diperlukan waktu serangkaian ujicobaselama 6 ASVAB mulai digunakan tahun 1996 (Segall & Moreno, 1999). Selain waktu
pengem-cukup besar perlu menjadi faktor pertimbangan. Dibutuhkan menjadi CAT (Peterson, 1995). Sebenarnya, waktu biaya yang besar ini akan sangat berarti dengan kelebihan yang dimiliki CAT dibandingkan PPT atau CT konvensional. Pengembangan CAT, terutama dalam industri dan organisasi, menjadi tantangan sekaligus kemajuan dalam perkembangan pengukuran psikologis di
ed. New Jersey: Prentice-Hall Inc.
Some Features of the sampling distribution of the ability estimate in
. Makalah disajikan pada International Objective Measurement Workshop, New Orleans, April 2002 (tidak
Bower, Bruce. (2003) Essence of G: scientists search for the biology smarts. Science News; Feb 8,
Bunderson, C.V., Inouye, D. K., & Olsen, J.B. The Four Generations of Computerized Educational ed. New York: American
Introduction to Classical and Modern Test Theory. Florida:
The Psychological Testing: an introduction. 2nd ed.
NewJersey : Lawrence
Gregory, R.J. (2000). Psychological Testing: History, Principles, and Applications
Bacon.
Hambleton, R.K., Swaminathan, H, & Rogers, H.J. (1991). Volume 2. California: Sage Publications, Inc.
Peterson, K. A., Davison, M.L., Hjelseth, L., Angermeyr, J., Hodges, T.,
Weiss, D.J., (1995). Computerizing Statewide Educational Assessments in Minne on the Cost and Feasibility of Converting the
Computerized Adaptive Format
Education and Human Development, University of Minnesota.
Segall, D.O. & Moreno (1999). Development of the Computerized Adaptive Testing Version of the Armed Services Vocational Aptitude Battery. Dalam Fritz Drasgow & Julie B. Olson
Innovations in Computerized Assessment
Publishers.
Simms, L.J., & Clark, L.A. (2005). Validation of a Computerized Adaptive Version of Schedule of Nonadaptive and Adaptive Personality (SNAP).
43.
Thissen, D., & Mislevy, R. J. (1990). Testing Algo
& B.F. Green, Computerized Adaptive Testing: a Primer.
Associates, Publishers.
Wainer, H. (1990). Introduction and History.
Computerized Adaptive Testing: a Primer
Publishers.
Wainer, H., 2000, CATs: Whither and Whence
Yulianto, Aries. (2007). The Potential Use and Development of Conputerized Adaptive Organizational and Industrial Setting.
Psychology Conference Proceeding. Yogyakarta: Universitas Gadjah Mada. Yulianto, Aries. (2008). Computerized Adaptive Testing:
Pengetesan Psikologis. Prosiding Konferensi Nasional Sistem Informasi (KNSI) 2008. Yogyakarta: Universitas Sanata Dharma.
Zickar, M.J., Overton, R.C., Taylor, L.R., & Harms, H.J. (1999) The Development of Computerized Selection System for Computer Programmers in a Financial Services Company. Dalam Fritz Drasgow & Julie B. Olson-Buchanan.
Lawrence Erlbaum Associates, Publishers.
Psychological Testing: History, Principles, and Applications
Hambleton, R.K., Swaminathan, H, & Rogers, H.J. (1991). Fundamental of Item Response Theory
Volume 2. California: Sage Publications, Inc.
Peterson, K. A., Davison, M.L., Hjelseth, L., Angermeyr, J., Hodges, T.,Kochmann,
Computerizing Statewide Educational Assessments in Minne
on the Cost and Feasibility of Converting the Minnesota Comprehensive Assessments Computerized Adaptive Format. Minnesota: Office of Educational Accountability, College of Education and Human Development, University of Minnesota.
, D.O. & Moreno (1999). Development of the Computerized Adaptive Testing Version of the Armed Services Vocational Aptitude Battery. Dalam Fritz Drasgow & Julie B. Olson
Innovations in Computerized Assessment. New Jersey: Lawrence Erlbaum Associat
Simms, L.J., & Clark, L.A. (2005). Validation of a Computerized Adaptive Version of Schedule of Nonadaptive and Adaptive Personality (SNAP). Psychological Assessment
Thissen, D., & Mislevy, R. J. (1990). Testing Algorithms. Dalam H. Wainer, N.J. Dorans, R. Flugher,
Computerized Adaptive Testing: a Primer. New Jersey: Lawrance Erlbaum
Wainer, H. (1990). Introduction and History.Dalam H. Wainer, N.J.Dorans, R.
Computerized Adaptive Testing: a Primer. New Jersey: Lawrance Erlbaum Associates,
CATs: Whither and Whence, Psicológica, 21, 121-133.
The Potential Use and Development of Conputerized Adaptive
Organizational and Industrial Setting. I/O Psychology at the Crossroad: Diversity in I/O Psychology Conference Proceeding. Yogyakarta: Universitas Gadjah Mada.
Computerized Adaptive Testing:PemanfaatanPsikologis
Pengetesan Psikologis. Prosiding Konferensi Nasional Sistem Informasi (KNSI) 2008. Yogyakarta: Universitas Sanata Dharma.
Zickar, M.J., Overton, R.C., Taylor, L.R., & Harms, H.J. (1999) The Development of Computerized puter Programmers in a Financial Services Company. Dalam Fritz Buchanan. Innovations in Computerized Assessment
Lawrence Erlbaum Associates, Publishers.
Psychological Testing: History, Principles, and Applications. 3rd ed. MA:Allyn &
ental of Item Response Theory.
Kochmann,R.,Mattson,D., &
Computerizing Statewide Educational Assessments in Minnesota:A Report Minnesota Comprehensive Assessments to a
. Minnesota: Office of Educational Accountability, College of
, D.O. & Moreno (1999). Development of the Computerized Adaptive Testing Version of the Armed Services Vocational Aptitude Battery. Dalam Fritz Drasgow & Julie B. Olson-Buchanan. . New Jersey: Lawrence Erlbaum Associates,
Simms, L.J., & Clark, L.A. (2005). Validation of a Computerized Adaptive Version of Schedule of
Psychological Assessment, vol. 17, no. 1,
28-rithms. Dalam H. Wainer, N.J. Dorans, R. Flugher, New Jersey: Lawrance Erlbaum
Dorans, R.Flugher,&B.F. Green. . New Jersey: Lawrance Erlbaum Associates,
The Potential Use and Development of Conputerized Adaptive Testing in
I/O Psychology at the Crossroad: Diversity in I/O Psychology Conference Proceeding. Yogyakarta: Universitas Gadjah Mada.
PsikologisdariKomputer untuk Pengetesan Psikologis. Prosiding Konferensi Nasional Sistem Informasi (KNSI) 2008.
Zickar, M.J., Overton, R.C., Taylor, L.R., & Harms, H.J. (1999) The Development of Computerized puter Programmers in a Financial Services Company. Dalam Fritz