• Tidak ada hasil yang ditemukan

Pada Modern Test Theory (MTT), skala kemampuan peserta tes yang merespon butir soal berada pada rentang antara negatif tak terhingga dengan positif tak terhingga. Untuk mengukur kemampuan tersebut membutuhkan tes yang cakupan jumlah butir soal besar disertai dengan tingkat kesukaran butir soal yang tinggi pula. Jika rentang tingkat kemampuan peserta tes besar maka diperlukan lebih banyak butir soal dalam tes namun akan ada banyak butir soal yang tidak optimal mengukur kemampuan peserta tes. Jika panjang tes pendek maka kemungkinan tidak akurat dalam mengukur variasi kemampuan peserta tes yang tinggi.

Tingkat kemampuan peserta tes berada pada skala yang sama dengan tingkat kesukaran butir soal. Jika rentang tingkat kesukaran butir soal besar dalam suatu tes maka tidak akurat mengukur kemampuan peserta tes yang bervariasi, sebaliknya jika rentang tingkat kesukaran butir soal kecil misalnya di sekitar rata-rata tingkat kesukaran butir soal maka butir soal tersebut sesuai dengan peserta tes berkemampuan sedang. Oleh karena itu, dibutuhkan suatu mekanisme penyajian butir soal dimana tingkat kesukaran butir soal adaptif terhadap variasi tingkat kemampuan peserta tes yang tinggi namun hasilnya tetap adil bagi peserta tes. Menurut Hambleton, et al. (1991: 145) secara umum kemampuan peserta tes berbeda, sehingga tingkat kesukaran butir soal perlu dipadankan dengan tingkat kemampuan peserta tes, yakni peserta tes berkemampuan tinggi diberikan butir soal yang lebih sukar, sebaliknya peserta tes yang berkemampuan rendah diberikan butir soal yang lebih mudah. Implikasinya, agar supaya semua butir soal akurat mengukur kemampuan peserta tes maka setiap peserta tes menempuh butir soal yang unik sesuai dengan keunikan kemampuannya secara

2

adaptif sehingga kemampuan tersebut terungkap secara maksimum. Mekanisme tes adaptif berbasis komputer dikenal sebagai Computerized Adaptive Testing (CAT).

Menurut Hambleton, et al. (1991: 146) MTT mempunyai karakteristik butir soal independen terhadap kelompok uji sehingga cocok dengan tes adaptif. Karakteristik butir soal tergambar pada kurva karakteristik butir soal dimana butir soal dikaitkan dengan kemampuan peserta tes dalam bentuk model logistik. Jika tingkat kesukaran butir soal dikaitkan dengan kemampuan peserta tes maka modelnya adalah logistik satu parameter (1PL), jika daya beda butir soal dan tingkat kesukaran butir soal dikaitkan dengan kemampuan peserta tes maka modelnya adalah logistik dua parameter (2PL), dan jika daya beda butir soal, tingkat kesukaran butir soal, dan peluang tebakan butir soal dikaitkan dengan kemampuan peserta tes maka modelnya adalah logistik tiga parameter (3PL). Menurut Linacre (2005), ketiga model tersebut merupakan model statistik yang ukuran metriknya normal atau model normal ogive dengan nilai D = 1,7. Disamping ketiga model tersebut, terdapat model lain yang mirip namun tak sama dengan 1PL yakni model Rasch dengan nilai D = 1.

Model Rasch merupakan model pengukuran bukan model statistik. Model Rasch secara filosofi psikometri menetapkan bahwa data yang cocok dengan model bukan model yang cocok dengan data. Model Rasch mempunyai unit skala logistik (logits) bukan probits. Oleh karena itu, model Rasch merupakan model mapan terhadap ukuran sampel kecil dan cukup dimana tingkat kesukaran butir soal menjadi ukuran dalam mengukur kemampuan sedangkan daya beda butir soal sama dan peluang tebakan butir soal sama dengan nol. Karakteristik butir soal bentuk tes pilihan ganda dalam CAT diadaptasikan dengan kemampuan peserta tes sehingga peluang tebakan kurang signifikan dan daya beda kurang memberi sumbangsih pada kemampuan maksimal peserta tes secara individu. Lebih lanjut, model pengukuran Rasch tidak

3

memperhatikan (rejected) variasi daya beda yang dianggap sebagai gejala (symptom) butir soal bias dan multidimensi. Berdasarkan hal tersebut, model Rasch lebih cocok digunakan dalam pengembangan CAT.

Mekanisme pengembangan CAT membutuhkan beberapa aturan pokok. Pertama, inisialisasi kemampuan peserta tes atau butir soal pertama yang direspon peserta tes. Inisialisasi tersebut merupakan titik awal dalam pencarian butir soal selanjutnya. Jumlah perbedaan aturan inisialisasi kemampuan yang ditetapkan dalam pengembangan CAT cukup banyak. Misalnya, Peserta tes merespon tiga butir soal sebagai inisialisasi awal kemampuan. Aturan tersebut memetakan kemampuan awal dalam kategori kemampuan sangat rendah, rendah, sedang, tinggi, dan sangat tinggi. Kedua, aturan pemberhentian penyajian butir soal pada CAT juga bervariasi. Misalnya, peserta tes merespon satu butir soal untuk mendapatkan galat baku penaksiran parameter kemampuan lebih kecil atau sama dengan 0,43 (Reshetar dalam Hambleton,

et al, 1991: 149) atau lebih kecil atau sama dengan 0,3 (Gustha, 2003: 10). Aturan

lain, peserta tes merespon dua butir soal untuk mendapatkan selisih galat baku penaksiran parameter kemampuan lebih kecil atau sama dengan 0,01. Aturan pemberhentian menggunakan satu butir soal dan dua butir soal mirip namun aturan kedua lebih mapan karena menggunakan selisih dua galat baku penaksiran parameter kemampuan peserta tes secara berturut-turut. Aturan pemberhentian lain, penetapan sejumlah butir soal berdasarkan alokasi waktu tertentu seperti Paper and Pencil Test (P&P), misalnya 25 butir soal (Gustha, 2003) atau 40 butir soal dengan waktu 120 menit dimana setiap butir soal dikerjakan rata-rata selama tiga menit.

Ketiga, pemilihan metode dalam menyajikan butir soal adaptif terhadap kemampuan peserta. Swaminathan (1983: 24) dan Hambleton, et al. (1991: 46) mengemukakan bahwa ada beberapa metode penaksiran parameter kemampuan bila

4

parameter butir soal tes diketahui, antara lain: Maximum Likelihood Estimation (MLE), bayesian, heuristik, dan analisis faktor non linier. Metode heuristik memiliki banyak variasi prosedur. Selanjutnya metode tersebut dapat digunakan pada tingkatan diskrit atau kontinu, misalnya clustering, pelacakan, dan kontrol.

Metode heuristik mencakup metode pencarian, pengontrolan, dan penalaran sehingga banyak digunakan dalam sistem inteligen, sistem pakar, atau sistem pendukung keputusan dimana asumsinya tidak ketat. Misalnya, jaringan syaraf tiruan, algoritma genetika, dan logika fuzzy tidak memerlukan asumsi ketat sehingga penarapannya semakin luas dalam berbagai pengontrolan dan optimasi baik dalam rekayasa teknik, kedokteran, maupun psikometri. Salah satu metode heuristik, yakni logika fuzzy tidak memerlukan pelatihan dan tidak memerlukan aturan logika tinggi namun dapat diandalkan pada pemecahan masalah ketidakpastian.

Logika fuzzy mempunyai kelebihan jika dibandingkan dengan logika boolean. Logika boolean mempunyai tingkat ketelitian diskrit sehingga pada penalaran yang tinggi kurang tepat. Menurut Siler & Buckley (2005) dan user’s guide MATLAB versi_2 (2004) logika fuzzy menawarkan beberapa karakteristik spesifik sehingga salah satu pilihan yang baik pada masalah kontrol. Konsep logika fuzzy mudah dimengerti karena konsep matematis mendasari penalaran fuzzy sangat sederhana dan mudah. Penerapan logika fuzzy adalah fleksibel dan memiliki toleransi terhadap data-data yang memerlukan penafsiran lebih lanjut, misalnya pemodelan fungsi-fungsi nonlinear yang sangat kompleks. Logika fuzzy dapat membangun dan menerapkan pengalaman pakar dalam bentuk basis pengetahuan secara langsung tanpa harus melalui proses pelatihan.

Basis pengetahuan (aturan fuzzy) sebagai dasar penalaran fuzzy dapat mengontrol sistem fuzzy sehingga dapat mengoptimalkan ouput sesuai metode fuzzy. Metode fuzzy terbagi tiga yakni Tsukamoto, Sugeno, dan Mamdani. Ketiga metode

5

tersebut mempunyai prosedur pencarian yang tidak sama dalam menentukan output sehingga walaupun bentuk input (anteseden) serupa akan menghasilkan bentuk output (konsekuen) yang berbeda. Metode fuzzy Tsukamoto mempunyai konsekuensi dari setiap basis pengetahuan. Setiap basis pengetahuan menggunakan aturan IF-THEN. Selanjutnya aturan tersebut direpresentasikan dengan suatu himpunan fuzzy ke fungsi keanggotaan monoton sehingga tidak ada proses defuzifikasi. Metode fuzzy Sugeno mempunyai konsekuensi berupa konstanta atau fungsi matematika. Bila basis pengetahuan dikomposisikan maka defuzifikasi dilakukan dengan mencari nilai rerata berbobot. Metode fuzzy Mamdani menggunakan himpunan fuzzy, baik variabel masukan maupun variabel keluaran dibagi menjadi satu atau lebih himpunan fuzzy. Operasi komposisi basis pengetahuan menggunakan aturan MIN. Selanjutnya, komposisi korelasi basis pengetahuan menggunakan penalaran max, additive, atau probabilistik OR. Agregasi keluaran semua aturan menggunakan metode defuzzifikasi. Ketiga metode fuzzy tersebut mempunyai kelebihan dan kekurangan masing-masing.

Metode fuzzy Mamdani lebih intuitif memberikan keluaran dan lebih sesuai dengan pola pikir namun perhitungan mendapatkan keluaran lebih komplit jika dibandingkan dengan metode fuzzy Sugeno. Metode fuzzy Sugeno lebih sederhana namun kurang mengikuti pola pikir. Keduanya mempunyai metode defuzzifikasi dan keluaran yang berbeda, sedangkan metode fuzzy Tsukamoto tidak melakukan proses defuzifikasi dalam menghasikan keluaran sehingga paling sederhana namun mempunyai kesamaan basis pengetahuan metode fuzzy Mamdani walaupun keluarannya berbeda. Ketiga metode tersebut sama-sama dapat memecahkan masalah ketidakpastian berupa pengelolaan input menggunakan metode fuzzy dan basis pengetahuan untuk menghasilkan output. Berdasarkan hal tersebut, ketiga metode dapat mengontrol butir soal yang terlalu sukar atau terlalu mudah bagi peserta tes

6

menjadi lebih adaptif terhadap kemampuan peserta tes dengan bantuan suatu metode pencarian. Ketiga metode fuzzy tersebut dioptimalisasi dengan metode high low.

Metode high low merupakan metode pencarian yang sederhana, yakni jika respon benar maka tingkat kesulitan butir soal dinaikkan sekitar 0,1 sebaliknya jika respon salah maka tingkat kesulitan butir soal akan diturunkan sekitar 0,2 (Lord dalam Hulin, et al. 1983: 217). Metode high low menggunakan tingkat kesukaran butir soal sebagai kriteria dalam memilih butir soal selanjutnya sehingga lebih cepat proses

retriavel pada saat melakukan query pada basis data jika dibandingkan metode MLE

menggunakan fungsi informasi butir soal.

Perpaduan antara metode fuzzy dan metode high low pada pengembangan CAT menghasilkan model metode baru, yakni: (1) perpaduan metode fuzzy Tsukamoto dengan metode high-low menghasilkan metode Futsuhilow, (2) perpaduan metode

fuzzy Sugeno dengan metode high-low menghasilkan metode Fusuhilow, dan (3)

perpaduan metode fuzzy Mamdani dengan metode high-low menghasilkan metode

Fumahilow. Ketiga metode tersebut memiliki mekanisme berlainan dalam

pengembangan CAT.

Pengembangan CAT dapat menggunakan perbandingan antar metode sehingga diperoleh data panjang tes, tingkat exposure butir soal, galat baku penaksiran kemampuan peserta tes, dan jumlah waktu respon soal. Informasi tersebut dapat menjadi pilihan bagi user sesuai preferensinya.

Panjang tes menyangkut jumlah butir soal yang direspon peserta tes sampai penaksiran kemampuan peserta tes konvergen. Metode yang menyajikan jumlah butir soal jumlah kecil akan menghemat jumlah butir soal dalam bank soal dan dapat mencerminkan tingkat kecocokan kemampuan peserta tes dengan butir soal yang direspon. Tingkat exposure mengungkapkan jumlah butir soal direspon selama ujian

7

berlangsung yang keluar dari domain himpunan fuzzy inisialisasi kemampuan peserta tes. Metode yang mempunyai tingkat exposure yang besar menunjukkan metode tersebut memberikan butir soal kepada peserta tes berada di luar rentang inisialisasi kemampuan peserta tes. Jika hal tersebut terjadi, kerahasiaan butir soal semakin menurun sehingga butir soal tidak bisa berfungsi sebagaimana mestinya. Metode yang dapat menekan tingkat exposure butir soal sekecil mungkin merupakan mekanisme pemberian soal yang baik terutama dalam menyajikan butir soal yang mempunyai karakteristik butir soal yang ekstrim walaupun secara statistik hal tersebut sesuatu yang bisa dipahami secara logika. Galat baku penaksiran parameter kemampuan peserta tes memberikan informasi sejauh mana metode tersebut menyajikan butir soal yang adaptif terhadap kemampuan peserta secara akurat. Metode yang menyajikan butir soal yang lebih adaptif terhadap kemampuan peserta tes akan memiliki galat baku penaksiran parameter kecil. Jumlah waktu respon bagi peserta tes dalam menjawab butir soal memberikan informasi tentang kecepatan query-retrival pada basis data. Hal-hal tersebut merupakan faktor yang perlu diperhatikan dalam pengembangan CAT dengan dukungan teknologi informasi global jika produk berbasis web.

Perkembangan teknologi informasi dengan dukungan rekayasa produk perangkat keras dan lunak komputer dapat mempercepat akses user sebagai stakeholder yang berada di daerah yang berlainan. Pengembangan CAT berbasis web memberi keuntungan bagi user yakni peserta tes sebagai aktor yang merespon butir tes, pengajar sebagai aktor memasukkan butir soal, dan pimpinan serta user lain sebagai aktor mencari data dan informasi jika dibandingkan sistem desktop atau client server bila tingkat ketepatan, kekinian, dan kerelevanan informasi diprioritaskan.

Beberapa produk CAT berbasis web di beberapa negara telah diaplikasikan secara online. Misalnya, J-CAT dikembangkan di Jepang (Shinggo Imai, 2008),

8

SIETTE dikembangkan di Spanyol (Guzman, 2005), CAAS dikembangkan di Malaysia

(Sie, et al. 2005), dan OAVTS dikembangkan di Taiwan (Wen-shuenn Wu, 2004). Walaupun produk tersebut berbasis web namun user bersifat pasif. Pengembangan CAT berbasis web memerlukan Decision Support System (DSS) agar user lebih mudah menerima dan mencari informasi secara aktif sesuai dengan preferensinya.

Pengembangan CAT sebagai media pengujian berbasiskan komputer tak lepas dari peningkatan kebutuhan user sebagai pemakai produk berupa pendukung keputusan. CAT sebagai produk dapat menghasilkan informasi sesuai kebutuhan bukan hanya data sehingga perlu penambahan sistem cerdas berupa DSS. Menurut Turban (2001) DSS merupakan sistem informasi berbasis komputer yang interaktif, fleksibel, dan adaptif. DSS dibangun secara khusus untuk mendukung pemecahan masalah manajemen yang tidak terstruktur dalam meningkatkan kualitas pengambilan keputusan sesuai dengan preferensi. User dapat melakukan pembobotan terhadap domain (mata pelajaran) dan memberikan kriteria kelulusan. Penelitian Rukli (2010) dalam menerapkan DSS menunjukkan bahwa user dapat melakukan pembobotan dan penetapan kriteria penerimaan sesuai preferensinya. Beberapa hasil penelitian mengenai model CAT tidak memperhatikan hal tersebut, misalnya penelitian Agus Santoso (2009) dan Haryanto (2009).

Penerapan CAT dapat dilakukan di Sekolah Dasar (SD) dimana setiap tahun Pemerintah menyelenggarakan Ujian Nasional (UN). Hasil observasi dilakukan di Provinsi Sulawesi Selatan tahun 2008 dan 2010 menunjukkan beberapa hal terkait penyelengaraan UN sebagai berikut. (1) Ada beberapa sekolah menganggap penyelengaraan UN SD hanya seremonial belaka jika dibandingkan dengan Ujian Nasional di tingkat Sekolah Menengah Pertama (SMP) dan Sekolah Menengah Atas (SMA) karena menganggap SMP merupakan kelanjutan SD dalam bingkai pendidikan

9

dasar sembilan tahun. Akibatnya UN SD tidak terlalu diperhatikan oleh user (peserta tes, pengajar, wali peserta tes, dan pimpinan). Oleh karena SD merupakan pintu pertama dan utama dalam mengembangkan potensi peserta tes secara dini dan secara formal sehingga sistem evaluasi yang ada perlu diperbaiki dan ditingkatkan, misalnya menggunakan CAT. (2) Tingkat kebocoran butir soal berpeluang terjadi karena dua guru dari setiap kabupaten/kota membuat butir soal UN di provinsi sehingga menjadi kendala dalam mengukur kemampuan peserta tes secara jujur, adil, dan akurat. (3) Penilaian kelulusan diserahkan sepenuhnya kepada sekolah sehingga setiap sekolah mempuyai standar kelulusan yang berbeda-beda. Keempat, pengawasan ujian dilakukan secara silang antar sekolah, namun masih terbatas antar sekolah dalam satu gugus atau kelurahan/desa sehingga tingkat kejujuran kurang terjamin.

Disamping hal tersebut, beberapa hasil observasi terkait perkembangan teknologi komputer sebagai berikut. (1) Keberadaan teknologi komputer di SD misalnya pada SD Unggulan mengalami kemajuan pada rentang waktu tersebut, misalnya fasilitas laboratorium kemputer dan perpustakaan berbasis informasi teknologi. Data deskriptif menunjukkan keberadaan komputer di sekolah inti dan unggulan sudah memiliki komputer walaupun jumlahnya tidak sama. Misalnya, SDN 1 Lamappapoloware dan SDN 161 Karya mempunyai komputer cukup memadai bagi peserta tes kelas empat, lima, dan enam dalam kegiatan praktek komputer. (2) Dana pembelian dan perawatan komputer berasal dari berbagai sumber. Misalnya, United

States Agency For International Development (USAID) dalam bentuk program Desentralised Basic Education (DBE) bidang pendidikan dasar sejak tahun 2005, dana

Sekolah Standar Nasional (SSN), Bantuan Operasi Sekolah (BOS), Dana Alokasi Umum (DAU), Anggaran Pendapatan Belanja Daerah (APBD), dan bantuan dari anggota komite sekolah. (3) Jumlah SD semakin banyak yang tersebar di beberapa

10

pulau terpencil memerlukan model CAT berbasis web agar ketimpangan sistem pengujian dapat diminimalisasi. (4) Kemampuan dan kebiasaan peserta tes SD dalam menggunakan komputer cukup memadai dimana peserta tes kelas IV sudah belajar dan praktek komputer berupa latihan menggambar, mewarnai bunga, dan membuat bagunan sederhana. (5) Jumlah guru SD unggulan dan inti yang memiliki laptop pribadi sekitar 80%.

Hasil observasi tersebut memberikan informasi bagaimana rentangnya kerahasian butir soal dan hasil ujian di SD yang perlu dibenahi. Demikian halnya, memberikan informasi bahwa perkembangan dan penguasaan teknologi komputer di SD sudah cukup maju. Walaupun bukan solusi mutlak yang dapat menanggulangi semua permasalahan tersebut namun penerapan model CAT di SD diharapkan akurasi informasi kemampuan peserta dapat di tingkatkan berdasarkan dukungan teknologi komputer di daerah dan beberapa manfaat lain bagi user. Adapun hal-hal yang dapat diperoleh user dengan pengembangan model CAT sebagai berikut. (1) Butir soal yang dikerjakan sesuai dengan keunikan kemampuan tiap peserta tes. (2) Kerjasama antar peserta tes (cheating) selama ujian dapat dibatasi karena setiap peserta tes mengerjakan tes yang berbeda. (3) Waktu pelaporan hasil ujian lebih cepat. (4) Jika terjadi kebocoran butir soal maka tebakan jawaban soal dalam waktu singkat dapat dibatasi sebab jumlah butir soal dalam bank soal ratusan bahkan ribuan. (5) Peserta tes dapat mencetak secara langsung hasil ujian saat ini sehingga kemungkinan rekayasa nilai yang dapat merugikan peserta tes dapat dihindari secara maksimal. Berdasarkan hal tersebut, perlu dikembangkan model CAT dengan metode Futsuhilow, Fusuhilow, dan Fumahilow di SD unggulan dan inti sehingga informasi diperoleh user cepat, akurat, dan relevan terutama dalam pengujian peserta tes SD masuk SMP.

11 B. Identifikasi Masalah

Berdasarkan latar belakang masalah yang telah dipaparkan, maka diidentifikasi beberapa masalah sebagai berikut.

1. User (peserta tes, pengajar, wali peserta tes, dan pimpinan) menganggap kegiatan ujian UN hanya seremonial belaka pada hal SD pintu utama dan pertama dalam meningkatkan kemampuan peserta tes sehingga perlu diperbaiki dan ditingkatkan secara dini.

2. Pemilihan tingkat kesukaran butir soal dalam membuat tes belum memperhatikan tingkat kemampuan peserta tes secara unik.

3. Penerapan teknologi komputer semakin pesat dalam berbagai bidang ilmu namun belum digunakan secara optimal dalam sistem pengujian.

4. Butir soal yang diberikan kepada peserta secara adaptif belum menggunakan metode tanpa persyaratan yang ketat.

5. Panjang tes yang terdapat pada P&P sama bagi semua peserta tes pada hal setiap peserta tes mempunyai kemampuan yang unik.

6. Waktu respon yang terdapat pada P&P sama bagi semua peserta tes pada hal setiap peserta tes mempunyai kecepatan dan kemampuan yang tidak sama dalam merespon butir soal.

7. Tingkat kemunculan butir soal dalam suatu ujian pada P&P sama bagi semua peserta tes jika terjadi kebocoran butir soal maka tebakan kunci jawaban sangat tinggi.

8. Galat baku penaksiran kemampuan peserta tes pada P&P besar karena setiap peserta tes merespon butir soal dengan karakteristik yang sama sedangkan karakteristik kemampuan peserta tes tidak sama.

12

9. Belum adanya penilaian standar kelulusan kepada sekolah sehingga setiap sekolah mempunyai standar kelulusan sendiri.

10. Belum ada sistem pengujian yang menggunakan tiga metode fuzzy berdasarkan model Rasch dalam satu produk.

11. Bank soal yang ada di sekolah belum optimal menggunakan teknologi komputer. 12. Walaupun sudah beberapa kali diperbaiki namun setiap tahun masih banyak peserta

tes bekerjama selama ujian dan masih terjadi kebocoran butir soal ujian.

13. Belum ada keseragaman waktu pelaporan hasil ujian Nilai Ebtanas Murni (NEM) di sekolah.

14. Model CAT sudah diaplikasikan di beberapa negara namun keluaran yang diterima

user masih sebatas data hasil ujian belum ada informasi laporan kelulusan.

15. Belum ada kajian sistem ujian adaptif yang memperhatikan panjang tes, tingkat

exposure butir soal, galat baku penaksiran parameter kemampuan, dan waktu

respon butir soal dalam satu model CAT terutama di Indonesia.