BAB I PENDAHULUAN 1.1 Latar Belakang Permasalahan

(1)

1 1.1 Latar Belakang Permasalahan

Instrumen pengukur sejauh mana penguasaan kompetensi suatu bidang keilmuan seseorang dapat diketahui dengan melakukan tes. Tes memiliki berbagai macam jenis, bergantung pada tujuannya, seperti tes untuk fungsi formatif, diagnostik, sumatif, dan penempatan. Kontroversi utama berkisar bagaimana mengukur kemampuan peserta tes secara akurat. Beberapa peserta tes yang telah menunjukan potensi yang baik kemudian diuji dengan suatu kompetensi tertentu, mereka mungkin tidak mencapai potensi penuh akademik karena kurang baiknya kualitas soal yang diujikan. Kedepannya, hal ini berdampak pada hasil tes yang tidak dapat merepresentasikan secara akurat kemampuan peserta tes sehingga menyulitkan institusi penyelenggara tes terkait untuk mengambil keputusan.

Perangkat tes yang sejenis dengan kuesioner Hospital Anxiety and Depression Scale (HADS) yang akan dibahas pada studi kasus cukup sering digunakan di Indonesia untuk meneliti kondisi kejiwaan pasien rumah sakit ataupun pegawai perusahaan.

Cakupan dari prestasi secara umum meliputi aspek kognitif, afektif, dan

psikomotorik. Banyak hal yang mempengaruhi hasil tes diantaranya aspek

penguasaan materi dan kesiapan mental peserta tes, kualitas dan jumlah soal yang

diujikan, dan faktor-faktor lainnya. Berdasarkan hal tersebut, maka para

penyelenggara tes perlu mengetahui dan memahami dasar-dasar prinsip

pengukuran prestasi. Tes yang akan diujikan harus terencana, memiliki presisi tes

yang baik, dan mengadakan evaluasi secara terus-menerus. Pertama, perencanaan

materi tes dan penyusunan butir soal memerlukan perumusan tujuan yang ingin

dicapai dari tes itu sendiri, kesesuaian materi tes dengan kompetensi yang ingin

diuji, parameter yang dijadikan sebagai tolak ukur, jenis butir soal yang digunakan,

dan banyak butir soal yang diujikan. Ke dua, pemilihan berbagai tipe butir soal,

(2)

baik tipe pilihan ganda benar-salah, jawaban essai, tipe berpasangan, dan tipe karangan harus tepat peruntukannya dengan materi butir soal agar dapat menghasilkan output pengukuran yang maksimal. Ke tiga, memperhitungkan aspek tingkat kesulitan butir soal, variasi dan pembeda, tingkat validitas dan reliabilitas, dan efektivitas serta efisiensi dari butir soal tersebut. Ke empat, pemberian skor pada tes harus berbeda untuk setiap tipe butir soal karena masing-masing memiliki tingkat kompetensi yang berbeda. Ke lima, aspek pemberian nilai akhir harus dipertimbangkan dengan matang agar hasil akhir tersebut diharapkan dapat memberikan efek positif yang dapat memberikan dorongan dan motivasi bagi peserta tes untuk menjadi lebih baik. Terkait butir-butir soal yang akan diujikan perlu suatu analisis statistika yang dapat mengetahui tingkat keefektifan butir soal dalam mengukur kemampuan-kemampuan yang ingin diketahui. Selain itu, analisis butir soal dapat mendukung tes dengan cara merevisi atau membuang butir soal yang kurang efektif dan bermanfaat untuk mengetahui informasi diagnostik pada peserta tes terkait pemahaman kompetensi bidang keilmuan tertentu.

Teori respon butir atau item response theory (IRT) merupakan metode yang

digunakan untuk menganalisis butir soal. Metode ini merupakan pengembangan

lanjutan dari metode teori tes klasik yaitu classical test theory (CTT) yang

aplikasinya sangat dibatasi oleh berbagai macam asumsi yang memiliki

kemungkinan tidak dapat terpenuhi untuk desain perangkat tes saat ini. Dalam era

perkembangan ilmu pengetahuan saat ini, model IRT biasanya digunakan untuk

mengukur variabel-variabel tersembunyi melalui analisis penurunan data dari daftar

pertanyaan dengan tipe jawaban dikotomus (biner) atau polikotomus (lebih dari

dua). Model IRT tradisional berdasarkan pada asumsi unidimensional, yang berarti

bahwa semua butir tes berkontribusi untuk mengukur variabel tersembunyi yang

sama. Selain itu, dalam beberapa kasus, asumsi dari distribusi variabel tersembunyi

ini secara eksplisit dianggap normal. Namun sayangnya, dalam beberapa kasus

praktis kedua asumsi tersebut terbatas. Oleh karena itu, beberapa pembahasan

lanjutan dari model IRT tradisional telah dikembangkan dalam berbagai literatur

dengan tujuan untuk membuat model lebih fleksibel dan realistis.

(3)

1.2 Pembatasan Masalah

Dalam penulisan skripsi ini permasalahan dibatasi pada estimasi parameter model respon bertingkat atau graded response model (GRM) untuk kelas laten multidimensional IRT skor respon polikotomus ordinal menggunakan metode maximum likelihood (MLE) melalui algoritma expectation-maximization (EM).

1.3 Tujuan Karya Tulis

Skripsi yang berjudul “Model Respon Bertingkat untuk Kelas Laten Multidimensional Teori Respon Butir” bertujuan untuk:

1. sebagai salah satu syarat untuk memperoleh gelar sarjana sains di Program Studi Statistika FMIPA UGM;

2. mempelajari GRM untuk kelas laten multidimensional IRT;

3. mempelajari prosedur metode MLE melalui algoritma EM untuk estimasi parameter model GRM;

4. membentuk model GRM untuk kelas laten multidimensional IRT pada set data Hospital Anxiety and Depression Scale (HADS).

1.4 Manfaat Karya Tulis

1. Menambah khazanah keilmuan statistika di bidang pemodelan kemampuan subyek, khususnya analisis butir soal yang memungkinkan adanya multidimensionalitas sifat laten dan variabel laten diskrit.

2. Mempopulerkan teknik analisis data dalam statistika untuk mendukung

kajian, evaluasi, dan revisi untuk meningkatkan akurasi instrumen tes dalam

pengukuran kemampuan kompetensi bidang keilmuan tertentu.

(4)

1.5 Tinjauan Pustaka

Model pengukuran konvensional dan prosedur konstruksi tes dalam bidang pendidikan dan psikologi serta interpretasi skor tes telah berkembang sejak abad XIX hingga sekarang. Pada tahun 1904 sampai 1910, Charles Spearman mengembangkan konsep dan metodologi yang disebut classical test theory (CTT).

Dalam bidang psikometrika, CTT dominan digunakan dalam pengujian data. Pada abad pertengahan XX, CTT adalah model tes statistik yang dominan namun pengembangan lain terus diupayakan. Thurstone mengembangkan metode pengukuran statistik yang paling penting pada tahun 1920 hingga akhirnya digantikan oleh IRT. Selanjutnya pada tahun 1931, Walker mencoba langkah penskalaan Guttman. Ide dari penskalaan ini menjelaskan model yang membandingkan butir soal dengan subyek yaitu bahwa jika seseorang dapat menjawab soal yang lebih sulit dengan benar pastinya dia akan mampu menjawab soal yang lebih mudah dengan benar untuk suatu topik yang sama. Tahun 1952 Lord menjelaskan konsep item characteristic curve (ICC) atau item response function (IRF) yang menjelaskan hubungan antara probabilitas respon benar butir soal ke-i dan variabel laten. Selanjutnya pada tahun yang sama Lord mengembangkan IRF sebagai fungsi distribusi kumulatif normal hingga dikenal kurva ogive normal.

Coomb mengembangkan unfolding IRT model pada tahun 1964. Tahun 1968, Lord dan Novick menempatkan CTT pada beberapa teori statistik pada skor tes mental, yaitu IRT.

Beberapa sumber sebagai referensi utama yang dirasa penulis sangat

memberikan informasi tentang topik skripsi ini, yaitu Francesco Bartolucci, Silvia

Bacci, dan Michela Gnaldi (2012) dalam jurnalnya berjudul A class of

Multidimensional Latent Class IRT models for ordinal polytomous item response

menjelaskan kelas model IRT untuk butir tes dengan skala polikotomus ordinal,

yang diperluas dari kelas model multidimensional untuk skor butir dikotomus yang

mengukur lebih dari satu sifat laten. Kemudian masih dengan penyusun yang sama

dalam jurnalnya pada tahun 2013, MultiLCIRT: An R package for multidimensional

latent class item response models menjelaskan mengenai penerapan metode

(5)

kemungkinan maksimum melalui algoritma ekspektasi-maksimisasi untuk mengestimasi nilai parameter sifat laten dan parameter-parameter perangkat tes.

Ada pula Drew A. Linzer dan Jeffrey B. Lewis (2011) dalam jurnalnya poLCA: An R Package for Polytomous Variable Latent Class Analysis menjelaskan estimasi kelas laten untuk model dengan hasil variabel polikotomus ordinal menggunakan algoritma ekspektasi-maksimisasi untuk menemukan estimasi kemungkinan maksimum.

Penulisan skripsi ini didorong dari banyak penulisan skripsi dengan tema IRT yang telah dilakukan, Aprilia Sundari (2008), Classical Test Theory dan Item Response Theory untuk Analisis Butir Soal yang membahas estimasi parameter dari salah satu model logistik, yaitu model logistik satu parameter (Rasch model) dan menentukan kurva karakteristik butir soal berdasarkan model logistik tersebut.

Kemudian Lamini (2008), Pemodelan Kemampuan Subyek pada 3-PL Item Response Theory adalah salah satu skripsi yang menjelaskan pemodelan kemampuan subyek (ability) pada 3-PL (3-parameter logistik) IRT dipandang sebagai model regresi. Setelah itu skripsi tentang metode estimasi menggunakan prosedur Bayes, yaitu Itmam Fadhlan (2008), Estimasi Bayesian untuk Item Response Theory (IRT) Satu Parameter Dikotomus Unidimensional.

Pengembangan dari prosedur Bayes terdapat pada skripsi Hening Indreswari (2010), Estimasi Bayesian untuk Item Response Theory (IRT) 3 Parameter Normal Ogive (3PNO) Dikotomus Unidimensional yang membahas estimasi model tiga parameter normal ogive IRT dikotomus unidimensional dengan prosedur Bayes melalui metode Markov Chain Monte Carlo. Pengembangan banyak parameter perangkat tes yang diestimasi dibahas pada skripsi Kartini (2011), Estimasi Joint Maximum Likelihood untuk Model Teori Respon Butir Empat Parameter Logistik, yaitu model teori respon butir untuk empat parameter logistik dikotomus unidimensional IRT yang dibentuk melalui estimasi kemungkinan maksimum bersama.

Skripsi yang penulis angkat ini memiliki perbedaan cukup signifikan

dengan skripsi-skripsi sebelumnya yang telah dibahas pada tema IRT, yaitu pada

(6)

skripsi ini model IRT yang dibentuk memungkinkan adanya multidimensionalitas sifat laten, variabel laten diskrit, keterbatasan dari asumsi distribusi normal variabel laten, dan perbedaan parameterisasi distribusi bersyarat dari variabel respon yang diberikan oleh variabel laten. Selain itu, model yang dibentuk berdasarkan butir soal dengan skor respon polikotomus ordinal.

1.6 Metode Penulisan

Pengerjaan skripsi ini didukung oleh studi literatur yang diperoleh melalui perpustakaan FMIPA UGM, buku-buku, jurnal-jurnal, dan situs-situs pendukung yang tersedia di internet. Kualitas bahan studi kasus dalam skripsi ini bersifat kualitas analisis yang menggunakan data sekunder. Dalam pengerjaan skripsi ini juga didukung oleh perangkat lunak statistika, yaitu R 3.1.2.

1.7 Sistematika Penulisan

Skripsi ini disusun dengan sistematika sebagai berikut:

BAB I PENDAHULUAN

Bab ini membahas Latar Belakang Permasalahan, Pembatasan Masalah, Tujuan Karya Tulis, Manfaat Karya Tulis, Tinjauan Pustaka, Metode Penulisan, dan Sistematika Penulisan.

BAB II LANDASAN TEORI

Bab ini membahas beberapa teori yang berkaitan dengan pembahasan topik utama.

BAB III PEMBAHASAN

Bab ini membahas konsep umum dari estimasi model kelas laten,

analisis dimensionalitas, estimasi parameter dari model GRM untuk

(7)

kelas laten multidimensional IRT dengan metode MLE melalui algoritma EM, pembandingan model, dan pemilihan model terbaik.

BAB IV STUDI KASUS

Pada studi kasus ini akan diaplikasikan konsep MLE melalui algoritma EM sebagai metode untuk analisis data. Aplikasi dalam studi kasus ini mengenai hasil tes dari kuesioner dalam paket R:

“MultiLCIRT”, Bartolucci et al. (2013), yaitu Hospital Anxiety and Depression Scale (Zigmond dan Snaith, 1983). Pemodelan ini

BAB I PENDAHULUAN 1.1 Latar Belakang Permasalahan

1 1.1 Latar Belakang Permasalahan

Perangkat tes yang sejenis dengan kuesioner Hospital Anxiety and Depression Scale (HADS) yang akan dibahas pada studi kasus cukup sering digunakan di Indonesia untuk meneliti kondisi kejiwaan pasien rumah sakit ataupun pegawai perusahaan.

Cakupan dari prestasi secara umum meliputi aspek kognitif, afektif, dan

psikomotorik. Banyak hal yang mempengaruhi hasil tes diantaranya aspek

penguasaan materi dan kesiapan mental peserta tes, kualitas dan jumlah soal yang

diujikan, dan faktor-faktor lainnya. Berdasarkan hal tersebut, maka para

penyelenggara tes perlu mengetahui dan memahami dasar-dasar prinsip

pengukuran prestasi. Tes yang akan diujikan harus terencana, memiliki presisi tes

yang baik, dan mengadakan evaluasi secara terus-menerus. Pertama, perencanaan

materi tes dan penyusunan butir soal memerlukan perumusan tujuan yang ingin

dicapai dari tes itu sendiri, kesesuaian materi tes dengan kompetensi yang ingin

diuji, parameter yang dijadikan sebagai tolak ukur, jenis butir soal yang digunakan,

dan banyak butir soal yang diujikan. Ke dua, pemilihan berbagai tipe butir soal,

Teori respon butir atau item response theory (IRT) merupakan metode yang

digunakan untuk menganalisis butir soal. Metode ini merupakan pengembangan

lanjutan dari metode teori tes klasik yaitu classical test theory (CTT) yang

aplikasinya sangat dibatasi oleh berbagai macam asumsi yang memiliki

kemungkinan tidak dapat terpenuhi untuk desain perangkat tes saat ini. Dalam era

perkembangan ilmu pengetahuan saat ini, model IRT biasanya digunakan untuk

mengukur variabel-variabel tersembunyi melalui analisis penurunan data dari daftar

pertanyaan dengan tipe jawaban dikotomus (biner) atau polikotomus (lebih dari

dua). Model IRT tradisional berdasarkan pada asumsi unidimensional, yang berarti

bahwa semua butir tes berkontribusi untuk mengukur variabel tersembunyi yang

sama. Selain itu, dalam beberapa kasus, asumsi dari distribusi variabel tersembunyi

ini secara eksplisit dianggap normal. Namun sayangnya, dalam beberapa kasus

praktis kedua asumsi tersebut terbatas. Oleh karena itu, beberapa pembahasan

lanjutan dari model IRT tradisional telah dikembangkan dalam berbagai literatur

dengan tujuan untuk membuat model lebih fleksibel dan realistis.

1.2 Pembatasan Masalah

Dalam penulisan skripsi ini permasalahan dibatasi pada estimasi parameter model respon bertingkat atau graded response model (GRM) untuk kelas laten multidimensional IRT skor respon polikotomus ordinal menggunakan metode maximum likelihood (MLE) melalui algoritma expectation-maximization (EM).

1.3 Tujuan Karya Tulis

Skripsi yang berjudul “Model Respon Bertingkat untuk Kelas Laten Multidimensional Teori Respon Butir” bertujuan untuk:

1. sebagai salah satu syarat untuk memperoleh gelar sarjana sains di Program Studi Statistika FMIPA UGM;

2. mempelajari GRM untuk kelas laten multidimensional IRT;

3. mempelajari prosedur metode MLE melalui algoritma EM untuk estimasi parameter model GRM;

4. membentuk model GRM untuk kelas laten multidimensional IRT pada set data Hospital Anxiety and Depression Scale (HADS).

1.4 Manfaat Karya Tulis

1. Menambah khazanah keilmuan statistika di bidang pemodelan kemampuan subyek, khususnya analisis butir soal yang memungkinkan adanya multidimensionalitas sifat laten dan variabel laten diskrit.

2. Mempopulerkan teknik analisis data dalam statistika untuk mendukung

kajian, evaluasi, dan revisi untuk meningkatkan akurasi instrumen tes dalam

pengukuran kemampuan kompetensi bidang keilmuan tertentu.

1.5 Tinjauan Pustaka

Model pengukuran konvensional dan prosedur konstruksi tes dalam bidang pendidikan dan psikologi serta interpretasi skor tes telah berkembang sejak abad XIX hingga sekarang. Pada tahun 1904 sampai 1910, Charles Spearman mengembangkan konsep dan metodologi yang disebut classical test theory (CTT).

Coomb mengembangkan unfolding IRT model pada tahun 1964. Tahun 1968, Lord dan Novick menempatkan CTT pada beberapa teori statistik pada skor tes mental, yaitu IRT.

Beberapa sumber sebagai referensi utama yang dirasa penulis sangat

memberikan informasi tentang topik skripsi ini, yaitu Francesco Bartolucci, Silvia

Bacci, dan Michela Gnaldi (2012) dalam jurnalnya berjudul A class of

Multidimensional Latent Class IRT models for ordinal polytomous item response

menjelaskan kelas model IRT untuk butir tes dengan skala polikotomus ordinal,

yang diperluas dari kelas model multidimensional untuk skor butir dikotomus yang

mengukur lebih dari satu sifat laten. Kemudian masih dengan penyusun yang sama

dalam jurnalnya pada tahun 2013, MultiLCIRT: An R package for multidimensional

latent class item response models menjelaskan mengenai penerapan metode

kemungkinan maksimum melalui algoritma ekspektasi-maksimisasi untuk mengestimasi nilai parameter sifat laten dan parameter-parameter perangkat tes.

Skripsi yang penulis angkat ini memiliki perbedaan cukup signifikan

dengan skripsi-skripsi sebelumnya yang telah dibahas pada tema IRT, yaitu pada

1.6 Metode Penulisan

1.7 Sistematika Penulisan

Skripsi ini disusun dengan sistematika sebagai berikut:

BAB I PENDAHULUAN

Bab ini membahas Latar Belakang Permasalahan, Pembatasan Masalah, Tujuan Karya Tulis, Manfaat Karya Tulis, Tinjauan Pustaka, Metode Penulisan, dan Sistematika Penulisan.

BAB II LANDASAN TEORI

Bab ini membahas beberapa teori yang berkaitan dengan pembahasan topik utama.

BAB III PEMBAHASAN

Bab ini membahas konsep umum dari estimasi model kelas laten,

analisis dimensionalitas, estimasi parameter dari model GRM untuk

kelas laten multidimensional IRT dengan metode MLE melalui algoritma EM, pembandingan model, dan pemilihan model terbaik.

BAB IV STUDI KASUS

Pada studi kasus ini akan diaplikasikan konsep MLE melalui algoritma EM sebagai metode untuk analisis data. Aplikasi dalam studi kasus ini mengenai hasil tes dari kuesioner dalam paket R:

“MultiLCIRT”, Bartolucci et al. (2013), yaitu Hospital Anxiety and Depression Scale (Zigmond dan Snaith, 1983). Pemodelan ini

menggunakan perangkat lunak statistika R 3.1.2.

BAB V PENUTUP

Bab ini berisi beberapa kesimpulan yang diperoleh dari hasil

pembahasan pada bab-bab sebelumnya. Dalam bab ini juga

dilengkapi dengan saran terkait topik utama pembahasan beserta

kemungkinan pengembangan lanjutan.