PENGEMBANGAN COMPUTER ADAPTIVE TESTING UNTUK
MENGUKUR KECEPATAN DAN KETEPATAN PEMAHAMAN
TEKS BERBAHASA INGGRIS
Yasfin Fajri – Joko Lianto Buliali – Kartika Nuswantara
Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Email : yfajri@gmail.com
Kecepatan dan ketepatan dalam memahami suatu bacaan merupakan keahlian yang dapat menunjang proses belajar seseorang bukan hanya dalam bidang Bahasa Inggris melainkan juga pada bidang-bidang lain pada umumnya. Semakin cepat dan akurat seseorang dapat memahami suatu bacaan, maka ia dapat meningkatkan efisiensi waktu dan usaha yang digunakan dalam proses pembelajaran.
Aplikasi yang dibuat ini merupakan sebuah Computer Adaptive Testing yang dapat digunakan sebagai alat bantu pada proses pelatihan membaca secara cepat dan akurat. Menggunakan metode Criterion Reference Test dan Sequential Probability Ratio Test, aplikasi ini dapat mengestimasi tingkat akurasi pengguna dalam memahami bahan bacaan beserta kecepatan yang diperlukannya, lalu mengklasifikasikan pengguna tersebut ke dalam grup-grup kemampuan yang telah tersedia.
Memanfaatkan aplikasi ini, pelaksanaan tes dapat dilangsungkan secara fleksibel dengan waktu pelaksanaan yang lebih singkat dan hasil yang lebih akurat dibandingkan dengan metode tes konvensional.
Kata kunci: Membaca Cepat dan Akurat, Computer Adaptive Testing, Criterion Reference Test, Sequential Probability Ratio Test.
1. PENDAHULUAN
Membaca cepat dan akurat adalah salah satu keterampilan yang dapat mempengaruhi efisiensi seseorang dalam proses pembelajaran. Berbagai metode dan teknik telah banyak dikembangkan untuk membantu meningkatkan kemampuan seseorang dalam membaca secara cepat dan akurat.
Sementara Computer Adaptive Testing adalah salah satu computer-based test framework yang memiliki kemampuan dalam menyesuaikan item soal yang diberikan dengan kemampuan peserta tes.
Dalam paper ini akan dijelaskan bagaimana pengembangan sebuah CAT yang khusus
digunakan untuk mengukur kemampuan seseorang dalam membaca secara cepat dan akurat teks berbahasa Inggris.
2. COMPUTER ADAPTIVE TESTING
Computer Adaptive Testing (CAT) adalah suatu bentuk pemanfaatan computer untuk penyelenggaraan sebuah tes adaptif dimana soal-soal yang disajikan pada pembelajar tes telah dipilih dari bank soal yang ada sedemikian sehingga sesuai dengan tingkat kemampuan pembelajar yang bersangkutan. Pemilihan soal tersebut dilakukan agar tes yang dilaksanakan dapat mengukur dengan tepat kemampuan masing-masing pembelajar tes, secepat mungkin, menggunakan sesedikit mungkin item soal yang tersedia dalam bank soal [1].
Berikut beberapa komponen teknis yang memiliki peranan penting dalam sebuah CAT:
a) Calibrated Item Pool b) Starting Point
c) Item Selection Algorithm d) Scoring Procedure e) Termination Criterion
3. KETEPATAN DAN KECEPATAN PEMAHAMAN BACAAN
Kecepatan pemahaman bacaan diukur dalam Words Per Minute (WPM) yang menunjukkan berapa banyak jumlah kata yang dapat dipahami dalam satu satuan waktu [2]. Cara mengukurnya sederhana:
∑ 60 (1) Dimana:
Speed = Kecepatan pemahaman (wpm) Word = Kata dalam bacaan
t = waktu yang dibutuhan (sekon) Sementara ketepatan dapat diukur dengan melakukan evaluasi terhadap hasil yang diperoleh dalam mengerjakan soal-sooal terkait bahan bacaaan tersebut.
4. CRITERION REFERENCED TEST
Criterion Referenced Test (CRT) adalah tes yang digunakan untuk mengklasifikasikan seseorang ke dalam beberapa dua atau lebih katagori berdasarkan hasil yang didapatnya dalam tes yang telah ia kerjakan. Kebanyakan tes atau ujian tradisional yang diselenggarakan di berbagai lembaga pendidikan dapat dikatagorikan sebagai CRT dengan ciri khas adanya batas nilai (cut-score) yang menentukan kelulusan pembelajar ujian [3].
Dalam CRT score yang didapatkan seseorang dalam sebuah tes dihitung dengan:
∑
∑ (2)
Dimana:
Score = nilai yang didapatkan n = item yang dijawab dengan benar m = item yang ada dalam set soal
Beberapa karakteristik yang sering digunakan dalam model CRT adalah Cut-Score, Item Facility, dan B-Index.
Cut-Score
Cut-score adalah nilai batas yang ditentukan oleh penyelenggara tes sebagai acuan untuk menterjemahkan hasil yang didapatkan oleh peserta tes menjadi sebuah pernyataan tentang kedudukan peserta tersebut dalam kriteria yang diujikan. Dengan kata lain, cut-score adalah standar untuk mengklasifikasikan peserta tes berdasarkan hasil yang diperolehnya. Tergantung dari tujuan diadakannya, sebuah tes bisa memiliki lebih dari satu cut-score.
Item Facility
Dalam CRT, Item Facility (IF) digunakan dalam analisis item soal sebagai petunjuk tentang tingkat kesulitan soal secara umum. Nilai IF untuk suatu item didapat dari proporsi peserta tes yang berhasil mengerjakan item tersebut dengan benar.
∑
∑ (3)
Dimana:
IF = Item Facility
p-passed = peserta tes yang berhasil mengerjakan dengan benar
p = peserta tes
Nilai IF yang kecil, mendekati nol, menunjukkan bahwa secara umum item yang
bersangkutan memiliki tingkat kesulitan yang tinggi, sementara nilai IF yang mendekati satu menunjukkan bahwa item yang bersangkutan terlampau mudah, dan secara umum dapat dikerjakan oleh semua peserta tes, baik peserta dengan status mastery maupun non-mastery.
B-Index
B-Index menggambarkan seberapa baik sebuah item dalam membedakan peserta tes. Nilainya adalah pengurangan antara IF untuk peserta dengan status mastery (peserta dengan tingkat kemampuan sama atau lebih tinggi dari tingkat kesulitan soal) dan IF untuk peserta dengan status non-mastery (peserta dengan tingkat kemampuan kurang dari tingkat kesulitan soal). ∑ ∑ (4) ∑ ∑ (5) (6) Dimana:
m-passed = peserta dengan status mastery yang berhasil mengerjakan dengan benar item tersebut
m = peserta dengan status mastery n-passed = peserta dengan status
non-mastery yang berhasil mengerjakan dengan benar item tersebut
n = peserta dengan status non-mastery B-Index dengan nilai mendekati nol menunjukkan bahwa item yang bersangkutan tidak dapat digunakan untuk membedakan peserta tes yang mastery maupun non-mastery.
5. SEQUENTIAL PROBABILITY RATIO TEST
Sequential Probability Ratio Test (SPRT) adalah salah satu model yang dapat digunakan dalam CAT. Dibandingkan dengan model lain semisal IRT (Item Response Theory), SPRT memiliki keunggulan dalam hal kemudahan implementasinya [4].
Dalam implementasinya, mula-mula soal dipilih secara acak, kemudian dari respon yang diberikan oleh pembelajar tes dihitunglah rasio probabilitas pembelajar menjawab soal dengan benar. Berikut persamaan yang umum digunakan dalam SPRT [5]:
(2.8) (2.9) Dimana:
LBM = Lower Bound Mastery UBN = Upper Bound Non Mastery PR = Probability Ratio
Pm = Probabilitas peserta dengan status
mastery menjawab item dengan benar. Pnm = Probabilitas peserta dengan status
non-mastery menjawab item dengan benar.
s = jumlah item yang dijawab dengan benar.
f = jumlah item yang dijawab dengan salah.
α = Tipe I error, diklasifikasikan mastery meski pada kenyataannya non-mastery.
β = Tipe II error, diklasifikasikan non-mastery meski pada kenyataannya mastery.
Jika nilai PR lebih besar daripada LBM, maka pembelajar tersebut dapat dianggap berhasil menyelesaikan atau menguasai tingkat kesulitan yang baru saja ia kerjakan. Tes kemudian dihentikan atau dilanjutkan ke tingkat kesulitan berikutnya.
Jika nilai PR berada diantara LBM dan UBN, maka pembelajar belum dapat dianggap berhasil menguasai tingkat kesulitan tersebut dan akan mendapatkan soal lain dengan tingkat kesulitan yang setara. Sementara jika nilai PR lebih rendah daripada UBN, maka pembelajar yang bersangkutan dinyatakan tidak menguasai tingkat kesulitan tersebut. Tes kemudian dihentikan atau dilanjutkan ke tingkat kesulitan yang lebih rendah.
6. PERANCANGAN
Aplikasi yang dikembangkan ini adalah sebuah aplikasi CAT yang memungkinkan diselenggarakannya sebuah tes pengukuran kemampuan membaca secara cepat dan akurat teks berbahasa Inggris. Aplikasi ini bersifat desktop-based dimana masing-masing instalasi akan memiliki database soal sendiri sehingga dapat digunakan tanpa koneksi internet. Sebagai gantinya proses updating database soal tak dapat dilakukan secara realtime dan diperlukan tahap uji coba serta pengumpulan data tersendiri sebelum akhirnya sebuah database soal siap digunakan.
Aplikasi ini sendiri terdiri dari dua modul utama yang dapat digambarkan sebagai berikut:
Gambar 6.1 Hubungan antar modul
Seperti yang terlihat pada Gambar 6.1, Modul Uji merupakan modul yang digunakan untuk melakukan pengukuran tingkat kemampuan membaca cepat dan akurat, sementara Modul Manajemen Soal memungkinkan pengembang soal menambah dan mengubah data set soal yang ada di dalam database.
Modul Uji menampilkan data set soal yang ada di dalam bank soal kemudian menyimpan hasil uji dari pembelajar ke dalam database. Selain sebagai bahan masukan dan informasi bagi pembelajar tersebut, data hasil uji tersebut juga dapat digunakan oleh pengembang soal sebagai bahan pertimbangan dalam penyusunan bank soal yang ideal.
Pengguna modul uji adalah pembelajar yang ingin atau perlu mengetahui tingkat kemampuannya dalam membaca secara cepat dan akurat, sementara pengguna modul manajemen adalah instruktur atau pengembang bank soal yang ingin menyusun sebuah bank soal yang ideal.
Tabel 6.1 Hubungan antar modul Modul Uji Modul Manajemen Soal
Digunakan oleh Pembelajar Digunakan oleh Instruktur/Pengembang Soal Melakukan uji menggunakan data yang ada dalam Bank Soal
Entri/Edit Bank soal
Data Uji disimpan
untuk evaluasi Mendapatkan Feedback dari data uji
Modul Uji
Proses-proses utama yang ada di dalam modul uji di antaranya adalah:
Proses Seleksi Set Soal
Proses Evaluasi Ketepatan Pemahaman Proses Evaluasi Kecepatan Pemahaman Proses Pengecekan Stopping Condition Klasifikasi Hasil Uji
Proses Seleksi Set Soal
Dalam CAT tiap set soal yang diberikan kepada pembelajar, diseleksi oleh aplikasi sehingga sesuai dengan tingkat kemampuan pembelajar tersebut. Gambar 6.2 menunjukkan
flowchart yang menggambarkan proses seleksi set soal pada aplikasi ini.
Gambar 6.2 Flowchart seleksi set soal
Proses Evaluasi Ketepatan Pemahaman
Pada proses ini diukur pemahaman pengguna pada teks yang baru saja ia baca, dilihat dari kemampuannya menjawab soal-soal yang berkaitan dengan teks tersebut. Ada dua model yang digunakan dalam aplikasi untuk mengukur pemahaman pengguna.
Pada model CRT, perhitungan nilai/score pengguna dilakukan secara klasik. Dengan asumsi tiap item soal memiliki bobot yang sama, score pengguna dihitung dari prosentase jawaban yang betul dari jumlah seluruh item soal dalam set. Aplikasi kemudian membandingkan score yang didapatkan pengguna dengan nilai cut-score set soal yang bersangkutan apabila tersedia. Jika tidak, maka cut-score yang digunakan adalah 55 untuk batas bawah, dan 80 untuk batas atas.
Pada model SPRT, yang digunakan sebagai ukuran pemahaman pengguna untuk teks dengan tingkat kesulitan tertentu adalah besarnya nilai PR (Probabiliy Ratio). Berbeda dengan model CRT, besarnya nilai PR bersifat multiplikatif, sehingga nilai PR yang didapatkan seseorang setelah mengerjakan suatu set soal, adalah nilai PR dari set soal tersebut, dikalikan dengan nilai PR yang didapatnya dari set sebelumnya. Nilai PR baru direset kembali setelah pengguna yang bersangkutan mendapatkan nilai PR yang lebih besar dari LBM (Lower Bound Mastery) atau lebih kecil dari UBN (Upper Bound Non Mastery) yang telah ditentukan. Gambar 6.3 adalah flowchart yang menggambarkan proses pada evaluasi ketepatan pemahaman.
Gambar 6.3 Flowchart evaluasi ketepatan pemahaman
Proses Evaluasi Kecepatan Pemahaman
Pada proses ini, setelah mendapatkan nilai komprehensi pengguna terhadap teks dengan tingkat kesulitan tertentu, maka dengan memasukkan parameter kecepatan membaca pengguna, akan ditentukan tingkat kemampuan pengguna tersebut.
Secara singkat hubungan antara kecepatan pembaca dan tingkat pemahaman dapat digambarkan sebagai berikut:
Tabel 6.2 Hubungan Kecepatan dan Ketepatan Pemahaman Reading
Speed
Comprehension Mastery? Next Level Slow
( < 90 wpm)
Poor No Down
Fairly Good No Down Good Undecided Same
Average (90-200
wpm)
Poor No Down
Fairly Good Undecided Same
Good Yes Up
Fast ( > 200
wpm)
Poor No Down
Fairly Good Yes Up
Proses Pengecekan Stopping Condition
Dalam aplikasi ini, yang menjadi stopping condition adalah:
Apabila pengguna berhasil menyelesaikan tingkat kesulitan maksimum yang tersedia. Apabila pengguna gagal menyelesaikan
tingkat kesulitan minimum yang tersedia. Apabila hasil pengukuran kemampuan
pengguna tidak mengalami perubahan setelah menyelesaikan dua set soal.
Apabila jumlah set soal yang telah dikerjakan telah mencapai batas maksimum yang telah ditentukan.
Gambar 6.4 adalah flowchart yang menggambarkan pengecakan stopping condition dalam modul uji aplikasi ini.
Gambar 6.4 Flowchart Stopping Condition Klasifikasi hasil Uji
Setelah sesi berakhir, berdasarkan hasil yang didapatkan, seorang pembelajar dapat dikatagorikan ke dalam beberapa kelompok. Tabel 6.3 menjelaskan katagori pembelajar berdasarkan tingkat akurasi dan kecepatan membacanya. Hasil tersebut kemudian disimpan dan digunakan kembali sebagai parameter pada pelaksanaan tes berikutnya.
Tabel 6.3 Katagori Pembelajar Kecepatan
Baca
Komprehensi Katagori Lambat
( < 90 wpm)
Kurang Poor slow reader Cukup Fairly good slow
reader Baik Good slow reader
Cukup (90-200 wpm)
Kurang Poor average speed reader Cukup Fairly good average speed
reader
Baik Good average speed reader
Baik ( > 200
wpm)
Kurang Poor fast reader Cukup Fairly good fast
reader Baik Good fast reader
Modul Manajemen
Modul manajemen digunakan oleh instruktur atau pengembang bank soal untuk menambah atau mengubah data set soal yang ada di dalamnya, serta melakukan monitoring terhadap hasil data uji set-set tersebut.Ada dua proses utama dalam modul manajemen. Yang pertama adalah menambah atau mengubah data set soal di dalam aplikasi. Pengguna dipersilakan mengisi data set soal ke dalam form yang tersedia. Apabila aplikasi tidak menemukan kesalahan dalam proses pengisian form, maka penambahan atau perubahan pada set soal tersebut akan disimpan ke dalam database
Sementara pada proses monitoring, untuk set soal yang telah dipilih, apabila jumlah data uji telah mencukupi, akan dilakukan perhitungan:
Item Facilty B-Index PM dan PNM
Cut Score
Data-data tersebut dapat digunakan oleh pengembang soal untuk menyusun atau memperbaiki set soal yang ada di dalam Bank Soal.
7. IMPLEMENTASI DAN UJI COBA
Perangkat lunak yang di gunakan dalam pengembangan aplikasi ini adalah :
Sistem Operasi berupa Windows 7 version 6.1.
Sybase Power Designer 15 digunakan untuk merancang desain dari basis data, berupa CDM dan PDM serta DDl yang digunakan untuk membuat Tabel pada database.
Microsoft visio 2003 digunakan untuk membuat rancangan antar muka dan diagram aktivitas.
SQLite sebagai database perangkat lunak. SQLite Expert Personal 3.2.5.2105 digunakan
untuk membuat dan mendesain file database SQLite.
NetBeans IDE 6.9 sebagai editor bahasa pemrograman JAVA.
Sementara spesifikasi perangkat keras yang digunakan untuk mengimplementasikan sistem ini adalah:
Komputer dengan spesifikasi processor Intel Pentium Core i3-370M @2.4GHz dengan RAM sebesar 2 GB.
Uji Coba
Pada tahap uji coba, dilakukan pengetesan terhadap fungsionalitas modul-modul yang telah dibuat. Tabel 7.1 dan 7.2 adalah contoh skenario pada pelaksanaan tes dimana sesi dihentikan ketika pengguna telah mencapai level minimum yang tersedia. Sementara Tabel 7.3 dan 7.4 adalah contoh skenario dimana sesi dihentikan ketika pengguna telah mencapai level maksimum yang tersedia.
Tabel 7.1 Skenario Level Minimum CRT
No Level Reading Speed (Words Per Minute) Score Mastery 1 3 585.13 20 No 2 2 576.92 36.66 No 3 1 221.26 40 No Sesi Berakhir
Tabel 7.2 Skenario Level Minimum SPRT
No Level Reading Speed (Words Per Minute) Probability Ratio Mastery 1 3 223.28 1.209 Undecided 2 3 158.73 0.0105 No 3 2 92.249 0.012 No 4 1 13355.74 0.003 No Sesi Berakhir
Tabel 7.3 Skenario Level Maksimum CRT
No Level Reading Speed (Words Per Minute) Score Mastery 1 3 289.47 90 Yes 2 4 274.92 80 Yes 3 5 268.26 60 Yes Sesi Berakhir
Tabel 7.4 Skenario Level Maksmimum SPRT
No Level Reading Speed (Words Per Minute) Probability Ratio Mastery 1 3 174.81 42.39 Yes 2 4 153.41 42.39 Yes 3 5 141.26 42.39 Yes Sesi Berakhir
Pada modul manajemen uji coba dilakukan dengan mengecek apakah dengan data yang tersedia sistem dapat menghitung besarnya nilai IF, B-Index, PM dan PNM, serta Cut Score yang
disarankan untuk pengembangan soal.
8. KESIMPULAN DAN SARAN
Dari hasil pengamatan selama perancangan dan implementasi aplikasi yang telah dilakukan, dapat diambil simpulan sebagai berikut :
a. Penggunaan framework CAT sebagai alat uji menggantikan metode pen and paper dapat mempersingkat waktu pelaksanaan tes, karena dengan CAT, estimasi terhadap kemampuan seseorang mungkin dilakukan tanpa orang yang bersangkutan harus menyelesaikan jumlah maksimum set soal yang telah di-setting.
b. Penyelenggaraan tes menggunakan aplikasi CAT dapat lebih mudah dilakukan, karena administrasi soal, pencatatan waktu, dan penilaian dapat dilakukan secara otomatis. c. Dalam CAT, hasil yang didapatkan oleh
seorang pembelajar disimpan dan digunakan kembali sebagai parameter yang menentukan bagaimana pelaksanaan tes kali berikutnya.
d. CAT dapat digunakan untuk mengukur secara akurat kemampuan pengguna dalam berbagai level dengan mudah.
e. Pengembangan Bank Soal dapat dilakukan dengan lebih mudah, karena adanya sistem feedback yang dapat memberikan masukan pada pengembang tentang karakteristik set soal yang telah dibuat.
Saran-saran untuk pengembangan tugas akhir ini lebih lanjut adalah sebagai berikut: a. Diperlukan suatu uji coba untuk mengetahui
dengan tepat seberapa baik aplikasi dapat memperkirakan kemampuan seseorang dibanding dengan metode pen and paper yang konvensional.
b. Diperlukan penelitian lebih lanjut tentang kemungkinan penggunaan model CAT lain, seperti IRT (Item Response Theory), CAST (Computer Adaptive Sequential Test), dan MST (Multi Stage Test).
c. Dapat ditambahkan sistem agar aplikasi dapat langsung memberikan evaluasi dan masukan kepada pembelajar terkait hasil yang ia dapat dalam pelaksanaan ujian. d. Diperlukan perbaikan pada Content and
Exposure Control Procedure dengan penerapan algoritma-algoritma yang lebih baik pada proses seleksi set soal semisal Item Exposure Control Procedure dan Sympson-Hetter Procedure.
9. DAFTAR PUSTAKA
[1] Thompson, Nathan A. A Framework for the Development of Computerized Adaptive Test, Practical Assessment, Research & Evaluation (2011)
[2] Chang, Anna C-S The effect of a timed reading activity on EFL learners: Speed, comprehension, and perceptions Reading in a Foreign Language, Volume 22, No.2 (2010) 284-303. [3] Brown, James Dean
Criterion--referenced item analysis, The JALT Testing & Evaluation SIG Newsletter (2003) 18-24
[4] Hui Tao,Yu A Practical Computer Adaptive Testing Model for Small Scale Scenario Educational Technology & Society, 11 (2008) 259-274.
[5] Mitchell, Tom M. Machine Learning. McGraw-Hill (1997)
[6] Gosling, James The Java Language Specification. Addison-Wesley (2005) [7] Kreibich, Jay A. Using SQLite (1st ed.).
O'Reilly Media (2010)
[8] Jordan, R.R English For Academic Purpose, Cambridge University Press (1997)
[9] Rudner, Lawrence M. Measuring Decision Theory (2001)