ANALISIS KARAKTERISTIK PSIKOMETRI
PADA
CULTURE FAIR INTELLIGENCE TEST
(CFIT) SKALA 3B
SKRIPSI
Diajukan untuk memenuhi persyaratan
Ujian Sarjana Psikologi
Oleh
AGUS MANURUNG
071301071
FAKULTAS PSIKOLOGI
LEMBAR PERNYATAAN
Saya yang bertanda tangan di bawah ini menyatakan dengan sesungguhnya
bahwa skripsi saya yang berjudul :
Analisis Karakteristik Psikometri
pada Culture Fair Intelligence Test (CFIT) Skala 3B
adalah hasil karya sendiri dan belum pernah diajukan untuk memperoleh gelar
kesarjanaan di suatu perguruan tinggi manapun.
Adapun bagian-bagian tertentu dalam penulisan skripsi ini saya kutip dari
hasil karya orang lain yang telah dituliskan sumbernya secara jelas sesuai dengan
norma, kaidah, dan etika penulisan ilmiah.
Apabila di kemudian hari ditemukan adanya kecurangan di dalam skripsi
ini, saya bersedia menerima sanksi dari Fakultas Psikologi Universita Sumatera
Utara sesuai dengan peraturan yang berlaku.
Medan, Februari 2014
Agus Manurung
ANALISIS KARAKTERISTIK PSIKOMETRI
PADA
CULTURE FAIR INTELLIGENCE TEST
(CFIT)
SKALA 3B
Agus Manurung dan Etty Rahmawati
ABSTRAK
Suatu alat tes psikologi harus memiliki kualitas yang baik secara psikometri sehingga proses dan penggunaan hasil pengukurannya dapat dipercaya. Alat tes yang baik diharapkan mampu berfungsi sesuai dengan tujuan disusunnya alat tes tersebut agar diperoleh hasil pengukuran yang objektif dan standard. Oleh karena itu, perlu dilakukan evaluasi terhadap kualitas alat tes yang digunakan sehingga diperoleh alat tes yang valid dan dan hasil pengukuran yang reliabel.Tujuan dari penelitian ini adalah melakukan analaisis karakteristik psikometri terhadap Culture Fair Intelligence Test (CFIT) Skala 3B yang mencakup analisis indeks kesukaran aitem, indeks diskriminasi aitem, reliabilitas, dan validitas konstrak alat tes tersebut. Metode pengumpulan data yang digunakan dalam penelitian ini adalah metode dokumentasi, yaitu dengan menggunakan data yang didokumentasikan oleh P3M Fakultas Psikologi USU dalam menyeleksi calon pegawai. Data yang digunakan berupa lembar jawaban peserta seleksi yang berjumlah 1623 lembar. Pendekatan yang digunakan adalah teori tes klasik. Hasil dari penelitian ini menemukan bahwa dari 50 aitem yang terdapat dalam CFIT Skala 3B terdapat 8 aitem yang memiliki indeks diskriminasi yang jelek, sedangkan 7 aitem memerlukan revisi. Terdapat pula beberapa aitem yang yang urutannya tidak sesuai dengan alur urutan indeks kesukaran pada subtes 2-4. Penelitian ini juga menemukan indeks reliabilitas yang tidak reliabel sebagai tes inteligensi yaitu sebesar 0,769. Selain itu, berdasarkan analisis validitas konstrak dengan analisis faktor konfirmatori, penelitian ini menemukan hanya terdapat 20 aitem yang memiliki muatan faktor standard di atas nilai kritikal dan hanya 14 aitem yang memiliki t-value di atas nilai kritikal, tetapi tidak ada aitem yang memenuhi keduanya untuk disebut valid sebagai bagian dari tes inteligensi.
PSYCHOMETRIC PROPERTIES ANALYSIS OF
CULTURE FAIR INTELLIGENCE TEST (CFIT)
SCALE 3B
Agus Manurung and Etty Rahmawati
ABSTRACT
A psychological test must have a good quality in psychometric so the process and the use of the result can be reliable. A good psychological test is expected to have function as the purpose of the test is made so we can get an objective and standard result. Hence, we need to evaluate the test quality so we can get a valid test and reliable measure result. The aim of this study is to analyze the psychometric properties of Culture Fair Intelligence Test (CFIT) Scale 3B include item difficulty index, item discrimination index, reliability, and construct validity of the test. This study uses documentation method by using data that documented by P3M Psychology Faculty of USU in applicants selection. The data is the applicants’ answer from 1623 answer sheets. This study uses classical test theory approach. The result of this study finds that from total 50 items in CFIT Scale 3B there are 8 items that have bad discrimination index and 7 items need to be revised. There are also few items that doesn’t fit with the item difficulty’s order in subtest 2-4. This study also finds that reliability index is unreliable as an intelligence test, only 0,769. Furthermore, based on construct validity analysis by confirmatory factor analysis, this study finds that there are only 20 items that have standardize loading factor above critical value and only 14 items that have t-value above critical value, but none of these items have both values above critical to be called valid as part of intelligence test.
KATA PENGANTAR
Puji dan syukur saya panjatkan kepada Tuhan Yang Maha Esa yang telah
memberikan rahmat dan karuniaNya dalam proses penyelesaian skripsi ini. Judul
skripsi ini adalah “Analisis Karakteristik Psikometri pada Culture Fair
Intelligence Test (CFIT) Skala 3B” yang disusun untuk memenuhi salah satu
syarat untuk mencapai gelar sarjana Psikologi di Fakultas Psikologi Universitas
Sumatera Utara. Penulis memang mengakui bahwa selama proses pengerjaan
skripsi ini dibutuhkan kemauan dan dorongan yang kuat untuk dapat
menyelesaikannya.
Penulis menyadari bahwa akan sangat sulit untuk menyelesaikan penulisan
skripsi ini apabila tanpa bantuan, bimbingan, dan dorongan dari berbagai pihak
sejak masa perkuliahan hingga penyusunan skripsi ini. Oleh karena itu, penulis
ingin mengucapkan rasa terima kasih kepada beberapa pihak :
1. Prof.Dr. Irmawati, psikolog selaku dekan Fakultas Psikologi USU
2. Pusat Pelayanan Psikologi pada Masyarakat (P3M) USU, terutama kepada
pimpinan P3M USU Bapak Ferry Novliadi,M.Si dan Ibu Rika
Barus,M.Psi.psikolog, terima kasih atas kesempatan yang diberikan
kepada saya untuk melakukan penelitian di institusinya, dan kepada Bang
Fauzi dan Bang Adlin yang telah membantu saya selama proses
pengumpulan data.
3. Ibu Etty Rahmawaty, M.Si selaku dosen pembimbing skripsi yang telah
dengan sangat sabar dan berbaik hati bersedia membimbing penulis hingga
untuk mengungkapkan rasa syukur penulis atas bimbingan dan bantuan
Ibu selama ini, dan semoga Ibu bisa memaafkan segala kesalahan saya
selama seluruh proses penyelesaian skripsi ini.
4. Orang tua penulis, Dornia Tambun, yang telah sangat sabar menasehati
dan memberikan dorongan selama hidup saya, kelima kakak penulis Kak
Ati, Kak Iyan, Kak Juni, Kak Ani, Kak Manok, juga adik saya Elsye,
terima kasih atas nasehat, bantuan dan dukungan kalian selama ini baik
secara moral maupun materil.
5. Ibu Ika Sari Dewi, S.Psi., psikolog dan Bapak Eka Danta Jaya
Ginting,M.A.,psikolog yang telah meluangkan waktu sebagai dosen
penguji skripsi ini, terima kasih atas bimbingan, saran, dan nasehatnya,
terkhusus kepada Pak Eka yang telah menjadi lebih sebagai sahabat
daripada sebagai dosen bagi penulis.
6. Ibu Liza Marini.M.Psi.,psikolog selaku dosen pembimbing akademik saya
selama saya kuliah di Fakultas Psikologi USU, terima kasih atas
bimbingan, saran, dan dorongan yang Ibu berikan kepada saya.
7. Seluruh staf pengajar di Fakultas Pskologi USU, terima kasih atas segala
didikan, ilmu, dan pengalaman yang penulis dapatkan selama mengikuti
perkuliahan di Fakultas Psikologi USU.
8. Seluruh pegawai di Fakultas Psikologi USU, terutama Pak Aswan, Kak
Defi, Bang Ronal, terima kasih atas bantuannya kepada penulis selama
pengurusan administrasi.
9. Teman-teman angkatan 2007 (Armen, Junias, Seja, Tua, Dier, Princen,
seluruh angkatan 2007), sahabat enjoy (Johan, Holong, Efron, Jogi,
Edom), Parker & Lengther (bang Fitrah, bang Gunawan, pak Iyal, bang
Toni, bang Harri, bang Bima, bang Furqon, bang Endang, Rozi, Edwin,
bang Jono, bang Dani, bang Surya, Rajiv, Bagus, Bobby, Sony, dkk),
teman-teman lama (Daniel, Mei, Ira, Fida, Inggrid, Jendri, Manti, Eva,
Lenny, Magda, Caca, Bernad, Anson, Anes, dkk), dan teman-teman umeks
(Hitler, Siti, Tami, Dede, Wesly, dkk)
10.Seluruh penulis yang namanya tertera dan menjadi referensi dalam skripsi
ini.
11.Seluruh pihak yang tidak dapat penulis sebutkan satu persatu yang telah
membantu penulis dalam menyelesaikan skripsi ini.
Penulis menyadari bahwa penelitian ini masih memiliki banyak kekurangan
dan jauh dari sempurna. Oleh karena itu, penulis mengharapkan kritik, saran, dan
masukan yang membangun sehingga penelitian ini bisa menjadi lebih baik lagi di
masa depan. Akhir kata, penulis berharap semoga skripsi ini bermanfaat.
Medan, Februari 2014
DAFTAR ISI
LEMBAR PERNYATAAN.... ... i
ABSTRAK... ... ii
KATA PENGANTAR. ... iv
DAFTAR ISI ... vi
DAFTAR TABEL ... vii
DAFTAR RUMUS ... viii
DAFTAR LAMPIRAN ... ix
BAB I. PENDAHULUAN A. Latar Belakang Masalah ... 1
B. Identifikasi Masalah ... 7
C. Rumusan Masalah ... 7
D. Tujuan Penelitian ... 8
E. Manfaat Penelitian ... 8
BAB II. LANDASAN TEORI A. Classical Test Theory (CTT) ... 9
1. Pengertian CTT ... 9
2. Asumsi-asumsi dalam CTT ... 10
B. Analisis Karakteristik Psikometri ... 12
1. Indeks Kesukaran Aitem ... 13
b. Analisis Indeks Kesukaran Aitem ... 13
2. Indeks Diskriminasi Aitem ... 14
a. Pengertian Indeks Diskriminasi Aitem ... 14
b. Analisis Indeks Diskriminasi Aitem ... 15
3. Reliabilitas Alat Ukur ... 18
a. Pengertian Reliabilitas ... 18
b. Metode Estimasi Reliabilitas ... 20
c. Reliabilitas Skor Komposit ... 26
d. Standar Error Pengukuran dan Interpretasi Koefisien Reliabilitas ... 27
e. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas ... 29
4. Validitas ... 30
a. Pengertian Validitas ... 30
b. Sumber-sumber Bukti Validitas ... 31
c. Interpretasi Koefisien Validitas ... 37
C. Analisis Karakteristik Psikometri Alat Ukur ... 38
D. Culture Fair Intelligence Test (CFIT) Skala 3B ... 39
1. Sejarah dan Perkembangan CFIT ... 39
BAB III. METODE PENELITIAN A. Jenis Penelitian ... 42
B. Subjek Penelitian ... 42
C. Data yang Digunakan ... 43
1. Persiapan Izin Pengambilan Data ... 43
2. Pelaksanaan Penelitian ... 43
E. Program Komputer yang Digunakan ... 45
F. Analisis Data ... 46
BAB IV. Hasil dan Pembahasan A. Hasil ... 49
1. Indeks Kesukaran Aitem ... 49
2. Indeks Diskriminasi Aitem ... 51
3. Reliabilitas Komposit ... 54
4. Validitas Konstruk ... 54
B. Pembahasan ... 59
BAB V. Kesimpulan dan Saran A. Kesimpulan ... 64
B. Saran ... 65
DAFTAR TABEL
Tabel 1. Kategori Batasan Nilai p ... 14
Tabel 2. Evaluasi Indeks Diskriminasi Aitem ... 16
Tabel 3. Kategori Nilai Estimasi Koefisien Reliabilitas ... 29
Tabel 4. Perbandingan Ukuran-ukuran GOF... 48
Tabel 5. Hasil Analisis Indeks Kesukaran Aitem pada CFIT Skala 3B ... 50
Tabel 6. Pengelompokan p CFIT Skala 3B ... 51
Tabel 7. Hasil Analisis Indeks Diskriminasi pada CFIT Skala 3B ... 52
Tabel 8. Evaluasi d CFIT Skala 3B ... 53
Tabel 9. Kecocokan Model... 54
Tabel 10. Muatan Faktor ... 55
DAFTAR RUMUS
Rumus 1. Asumsi 1 CTT ... 10
Rumus 2. Asumsi 2 CTT ... 11
Rumus 3. Asumsi 3 CTT ... 11
Rumus 4. Asumsi 4 CTT ... 11
Rumus 5. Asumsi 5 CTT ... 11
Rumus 6. Indeks Kesukaran Aitem ... 13
Rumus 7. Indeks Diskriminasi Aitem ... 15
Rumus 8. Indeks Diskriminasi Aitem ... 15
Rumus 9. Indeks Reliabilitas Lord dan Novick ... 19
Rumus 10. Indeks Reliabilitas Osterlind ... 19
Rumus 11. Indeks Reliabilitas Gulliksen ... 20
Rumus 12. Formula Spearman-Brown ... 23
Rumus 13. Formula Koefisien Alpha ... 23
Rumus 14. Formula Kuder-Richardson 20 (KR-20) ... 24
Rumus 15. Formula Kuder-Richardson 21 (KR-21) ... 25
Rumus 16. Formula Rulon ... 25
Rumus 17. Formula Reliabilitas Skor Komposit ... 27
DAFTAR LAMPIRAN
LAMPIRAN I. Output Lisrel 8.30 ... 67
ANALISIS KARAKTERISTIK PSIKOMETRI
PADA
CULTURE FAIR INTELLIGENCE TEST
(CFIT)
SKALA 3B
Agus Manurung dan Etty Rahmawati
ABSTRAK
Suatu alat tes psikologi harus memiliki kualitas yang baik secara psikometri sehingga proses dan penggunaan hasil pengukurannya dapat dipercaya. Alat tes yang baik diharapkan mampu berfungsi sesuai dengan tujuan disusunnya alat tes tersebut agar diperoleh hasil pengukuran yang objektif dan standard. Oleh karena itu, perlu dilakukan evaluasi terhadap kualitas alat tes yang digunakan sehingga diperoleh alat tes yang valid dan dan hasil pengukuran yang reliabel.Tujuan dari penelitian ini adalah melakukan analaisis karakteristik psikometri terhadap Culture Fair Intelligence Test (CFIT) Skala 3B yang mencakup analisis indeks kesukaran aitem, indeks diskriminasi aitem, reliabilitas, dan validitas konstrak alat tes tersebut. Metode pengumpulan data yang digunakan dalam penelitian ini adalah metode dokumentasi, yaitu dengan menggunakan data yang didokumentasikan oleh P3M Fakultas Psikologi USU dalam menyeleksi calon pegawai. Data yang digunakan berupa lembar jawaban peserta seleksi yang berjumlah 1623 lembar. Pendekatan yang digunakan adalah teori tes klasik. Hasil dari penelitian ini menemukan bahwa dari 50 aitem yang terdapat dalam CFIT Skala 3B terdapat 8 aitem yang memiliki indeks diskriminasi yang jelek, sedangkan 7 aitem memerlukan revisi. Terdapat pula beberapa aitem yang yang urutannya tidak sesuai dengan alur urutan indeks kesukaran pada subtes 2-4. Penelitian ini juga menemukan indeks reliabilitas yang tidak reliabel sebagai tes inteligensi yaitu sebesar 0,769. Selain itu, berdasarkan analisis validitas konstrak dengan analisis faktor konfirmatori, penelitian ini menemukan hanya terdapat 20 aitem yang memiliki muatan faktor standard di atas nilai kritikal dan hanya 14 aitem yang memiliki t-value di atas nilai kritikal, tetapi tidak ada aitem yang memenuhi keduanya untuk disebut valid sebagai bagian dari tes inteligensi.
PSYCHOMETRIC PROPERTIES ANALYSIS OF
CULTURE FAIR INTELLIGENCE TEST (CFIT)
SCALE 3B
Agus Manurung and Etty Rahmawati
ABSTRACT
A psychological test must have a good quality in psychometric so the process and the use of the result can be reliable. A good psychological test is expected to have function as the purpose of the test is made so we can get an objective and standard result. Hence, we need to evaluate the test quality so we can get a valid test and reliable measure result. The aim of this study is to analyze the psychometric properties of Culture Fair Intelligence Test (CFIT) Scale 3B include item difficulty index, item discrimination index, reliability, and construct validity of the test. This study uses documentation method by using data that documented by P3M Psychology Faculty of USU in applicants selection. The data is the applicants’ answer from 1623 answer sheets. This study uses classical test theory approach. The result of this study finds that from total 50 items in CFIT Scale 3B there are 8 items that have bad discrimination index and 7 items need to be revised. There are also few items that doesn’t fit with the item difficulty’s order in subtest 2-4. This study also finds that reliability index is unreliable as an intelligence test, only 0,769. Furthermore, based on construct validity analysis by confirmatory factor analysis, this study finds that there are only 20 items that have standardize loading factor above critical value and only 14 items that have t-value above critical value, but none of these items have both values above critical to be called valid as part of intelligence test.
BAB I
PENDAHULUAN
A. Latar Belakang Masalah
Ilmu Psikologi merupakan salah satu cabang ilmu yang berperan untuk
mempelajari perilaku manusia. Untuk mempelajari perilaku manusia ini, para ahli
psikologi melakukan berbagai macam pengukuran terhadap perilaku manusia
tersebut, atau dengan kata lain dilakukan tes psikologi. Dibanding dengan
negara-negara maju di Eropa maupun Amerika Serikat, ilmu Psikologi termasuk cabang
ilmu yang baru di Indonesia tetapi tes psikologi sudah sangat umum dan sering
digunakan untuk berbagai tujuan dalam berbagai bidang di Indonesia, khususnya
bidang pendidikan dan pekerjaan.
Jika dilihat dari bagaimana perkembangan dunia pendidikan dan dunia
kerja sekarang ini, tes psikologi merupakan sesuatu yang sangat dibutuhkan untuk
melihat apakah seseorang sesuai untuk pendidikan tertentu atau jenis pekerjaan
tertentu. Contohnya di bidang pendidikan, tes psikologi digunakan untuk
menentukan seorang siswa masuk ke jurusan tertentu, misalnya jurusan ilmu
pengetahuan alam dan ilmu pengetahuan sosial pada tingkat SMA. Sedangkan di
bidang pekerjaan, tes psikologi digunakan untuk mengetahui kemampuan
seseorang dan menentukan apakah seseorang sesuai dengan suatu posisi pekerjaan
tertentu.
Urbina (2004) mengatakan bahwa ada tiga kategori tujuan penggunaan tes
pengembangan diri. Selain penggunaan tes psikologi untuk tujuan tertentu di
bidang pendidikan dan pekerjaan, masyarakat juga menggunakan tes psikologi
untuk mengetahui kondisi psikologis dan pengembangan diri mereka. Hal ini
dapat dilihat dari semakin banyak dan semakin berkembangnya biro-biro
Psikologi di kota-kota besar di Indonesia yang menunjukkan bahwa masyarakat
modern mulai peduli dengan kondisi psikologis mereka, misalnya bagaimana
kepribadian mereka dan bagaimana kemampuan mereka dalam hal inteligensi.
Banyaknya biro-biro psikologi ini juga bisa menunjukkan bahwa, selain minat
masyarakat untuk mengetahui kondisi psikologis mereka, masyarakat juga
sepertinya mulai mempercayai biro-biro tersebut untuk mengukur aspek-aspek
psikologis masyarakat tersebut.
Menurut Anastasi dan Urbina (2006), tes psikologi merupakan suatu
pengukuran yang objektif dan standar terhadap sampel dari suatu perilaku
tertentu. Ada banyak jenis tes psikologi sehingga fungsi dan tujuannya pun
berbeda-beda. Menurut Kaplan dan Saccuzo (2005), ada dua jenis tes psikologi,
yaitu tes kepribadian (personality test) dan tes kemampuan (ablility test) Tes
inteligensi adalah salah satu tes kemampuan yang sering dan umum digunakan.
Tes inteligensi merupakan tes yang digunakan untuk mengukur
kemampuan kognisi atau inteligensi pada individu yang terlihat dari
perilaku-perilaku yang ditunjukkan (Anastasi dan Urbina, 2006). Oleh karena kegunaan tes
inteligensi untuk mengukur hal-hal tersebut, banyak pihak maupun institusi
seperti sekolah dan perusahaan yang menggunakan tes inteligensi untuk memilih
orang yang tepat untuk jurusan yang tepat di jurusan pendidikan tertentu maupun
menggunakan tes inteligensi ini supaya orang-orang yang telah dipilih tersebut
menunjukkan performansi yang diharapkan dalam menjalani pendidikan maupun
pekerjaan.
Ada terdapat banyak jenis-jenis tes inteligensi yang digunakan dalam
dunia pendidikan maupun dunia kerja. Salah satu tes inteligensi yang umum dan
sering digunakan adalah Culture Fair Intelligence Test (selanjutnya akan disebut
CFIT). Culture Fair Intelligence Test adalah pengukuran nonverbal terhadap fluid
intelligence yang diciptakan oleh Raymond B. Cattel. Tujuan dari CFIT adalah
untuk mengukur fluid intelligence (kemampuan analisis dalam situasi abstrak)
dalam pola yang sebebas mungkin dari pengaruh budaya (Gregory, 2000). Culture
Fair Intelligence Test dirancang untuk memberikan sebuah estimasi kecerdasan
yang relatif bebas dari pengaruh bahasa dan budaya (Kaplan & Saccuzo, 2005)
Awalnya tes ini dinamakan Culture Free Intelligence Test. Nama tes ini
berubah setelah diketahui bahwa pengaruh budaya tidak bisa dihilangkan
seutuhnya dari tes inteligensi (Gregory, 2000). Salah satu tujuan instrument CFIT
ini adalah untuk meminimalisir pengaruh-pengaruh yang tidak relevan dari
pembelajaran budaya dan sosial sehingga dihasilkan pemisahan yang lebih bersih
terhadap kemampuan alami dari pembelajaran yang spesifik (IPAT dalam
Gregory, 2000). Untuk di Indonesia sendiri, CFIT diadopsi dan dikembangkan
oleh Universitas Indonesia pada tahun 1975. Cattel merancang CFIT untuk
mengurangi pengaruh budaya, perbedaan kecakapan verbal, dan perbedaan tingkat
pendidikan. CFIT dirancang untuk bebas dari bias budaya dan cocok dipakai oleh
beragam populasi, termasuk peserta tes yang tidak dapat berbicara dalam bahasa
dapat digunakan di Indonesia tanpa adanya perubahan atau adaptasi terhadap
aitem-aitemnya (“Buku Petunjuk Penggunaan CFIT”, 2013).
Tes inteligensi yang sudah sering digunakan umumnya akan lebih dikenali
oleh masyarakat luas. Oleh karena tes inteligensi ini, termasuk CFIT, sudah sangat
sering digunakan, maka orang-orang yang pernah mengikuti tes inteligensi ini
akan memiliki pengalaman untuk menghadapi tes yang sama di masa depan,
dengan kata lain ada proses belajar yang dialami oleh peserta sehingga ini dapat
menimbulkan bias pada hasil tes inteligensi tersebut. Hal ini berakibat banyaknya
pihak-pihak yang berniat untuk memudahkan orang lain untuk menjalani tes
inteligensi tersebut. Mereka banyak membuat bocoran-bocoran tentang bagaimana
cara menghadapi dan menyelesaikan tes tersebut. Ini dapat kita lihat dari
banyaknya tulisan-tulisan di internet yang membahas tentang tes inteligensi
termasuk bagaimana cara menjalani tes tersebut dan bagaimana penilaiannya. Jika
terdapat banyak individu yang mengikuti tes ini telah mengetahui jawaban yang
benar dalam tes ini maka hal ini bisa berakibat pada tingginya indeks kesukaran
aitem yang disebabkan oleh banyaknya individu yang menjawab benar pada
aitem-aitem tersebut dan dapat mengacaukan daya diskriminasi aitem. Dengan
munculnya indeks kesukaran yang tinggi ini dapat mengganggu reliabilitas alat tes
tersebut. Tidak terlewatkan juga CFIT termasuk salah satu tes yang sudah bocor
tersebut, bahkan ada beberapa situs yang melayani penjualan alat tes beserta kunci
jawaban CFIT, seperti yang ditemukan oleh peneliti sendiri.
Seberapa baik proses seleksi yang menggunakan tes psikologi bergantung
pada kualitas alat tes psikologi itu sendiri. Ini merupakan hal yang sangat penting
keputusan tentang bagaimana kemampuan seseorang. Menurut Azwar (1999),
ketepatan interpretasi tes sangat bergantung pada dua karakteristik utama yang
harus dimiliki oleh setiap tes, yaitu reliabilitas dan validitas. Hasil pengukuran
yang tidak konsisten tidak dapat dipercaya dan apabila digunakan sebagai
informasi dalam pengambilan keputusan maka keputusan tersebut tidak akan
dapat diandalkan. Menurut Azwar (2005), suatu alat tes dikatakan memiliki
validitas yang tinggi jika alat tes tersebut menjalankan fungsi ukurnya, atau
memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran,
sedangkan tes dikatakan memiliki reliabilitas yang tinggi jika skor-tampak tes
tersebut berkorelasi tinggi dengan skor skor-murninya sendiri, atau dapat pula
diartikan sebagai seberapa tingginya korelasi antara skor-tampak pada dua tes
yang paralel. Menurut Kaplan dan Saccuzo (2005), tes psikologi merupakan
sejumlah aitem yang disusun untuk mengukur karakteristik manusia yang
berhubungan dengan perilaku. Aitem-aitem tersebut dirancang sedemikian rupa
berbentuk pertanyaan maupun pernyataan mengenai suatu hal yang akan diukur
atau diungkap. Dari sini bisa dilihat bahwa kualitas dari suatu alat tes ditentukan
oleh kualitas aitem-aitem yang digunakan dalam alat tes tersebut.
Sebagai salah satu alat tes psikologi yang mengukur inteligensi, CFIT
termasuk sering digunakan oleh institusi-institusi Psikologi di Indonesia.
Khususnya di daerah kota Medan, Sumatera Utara, terdapat beberapa institusi
psikologi maupun perusahaan yang menggunakan CFIT sebagai salah satu alat tes
inteligensi. Salah satu institusi tersebut adalah Unit Pelayanan Pusat Pelayanan
Psikologi pada Masyarakat (selanjutnya akan disebut P3M) Fakultas Psikologi
Fakultas psikologi Universitas Sumatera Utara karena adanya keterbatasan
aksesibilitas dan hal-hal terkait konfidensialitas dari institusi-institusi psikologi
yang lain. CFIT termasuk salah satu alat tes psikologi yang sudah sangat lama
tetapi masih sering digunakan di institusi P3M Fakultas Psikologi Universitas
Sumatera Utara. Bentuk CFIT yang paling sering digunakan adalah skala 3B, ini
terlihat dari banyaknya lembar jawaban CFIT skala 3B yang telah digunakan
dalam beberapa proses seleksi masuk kerja yang diselenggarakan oleh P3M
bekerjasama dengan beberapa institusi atau perusahaan tertentu. Melihat
permasalahan ini, mungkin kita akan mempertanyakan bagaimana sebenarnya
kondisi kualitas CFIT tersebut, tetapi pengujian atau evaluasi (analisis
karakteristik psikometri) yang dilakukan terhadap alat tes ini masih sedikit dan
terbatas di Indonesia. Untuk di Unit P3M Fakultas Psikologi Universitas Sumatera
Utara sendiri bahkan belum pernah dilakukan evaluasi terhadap alat tes CFIT ini,
padahal alat tes psikologi ini masih sering digunakan di Fakultas Psikologi USU.
Jika dilihat dari penggunaan hasil tes psikologi, khususnya tes inteligensi,
yang sangat luas di institusi-institusi seperti sekolah dan perusahaan, sangatlah
penting untuk tetap menggunakan alat tes yang tepat dan benar-benar berkualitas,
yaitu alat tes yang sesuai dengan fungsinya dan hasilnya dapat dipercaya. Oleh
karena itu, untuk memperoleh hasil-hasil yang valid dan reliabel dari suatu tes
psikologi, perlu diadakan evaluasi secara rutin terhadap tes tersebut mengingat
adanya kemungkinan pergeseran maupun perubahan budaya dan perkembangan
informasi yang pesat yang dapat mempengaruhi validitas dan reliabilitas alat tes
Oleh karena itu, peneliti melakukan penelitian ini dengan menggunakan
analisis karakteristik psikometri pada alat tes CFIT. Penelitian ini bertujuan untuk
mengetahui apakah CFIT ini masih standard, berkualitas, dan tepat untuk
digunakan di masyarakat, sehingga dalam setiap penggunaanya kita mendapatkan
hasil yang benar-benar sesuai dengan tujuan dari disusunnya alat tes ini dan dapat
dipercaya.
B.Identifikasi Masalah
Berdasarkan latar belakang masalah yang telah diuraikan, maka dapat
diidentifikasi masalah yang berhubungan dengan CFIT yaitu:
1. CFIT masih sering digunakan sebagai tes inteligensi oleh P3M Fakultas
Psikologi USU dan belum pernah dievaluasi secara psikometri oleh P3M
Fakultas psikologi USU.
2. CFIT juga telah mulai bocor ke publik sehingga tidak jarang individu
mendapatkan skor CFIT yang mungkin lebih tinggi dari yang sebenarnya.
C. Rumusan Masalah
Masalah dalam penelitian ini dirumuskan dalam bentuk pertanyaan
penelitian sebagai berikut:
1. Seberapa besarkah indeks kesukaran aitem dan indeks diskriminasi aitem pada
CFIT?
2. Bagaimana kondisi nilai indeks reliabilitas pada CFIT?
3. Bagaimana kondisi nilai indeks validitas konstrak pada CFIT?
4. Berdasarkan hasil analisis karakteristik psikometri, apakah CFIT masih tepat
D. Tujuan Penelitian
Penelitian ini bertujuan untuk melihat bagaimana kondisi kualitas dan
ketepatan CFIT skala 3B, apakah CFIT skala 3B masih berfungsi sesuai dengan
tujuan CFIT disusun berdasarkan kondisi karakteristik psikometri yang dimiliki.
E. Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan manfaat teoritis maupun
praktis, sebagai berikut:
1. Manfaat Teoritis
Penelitian ini diharapkan dapat menambah manfaat keilmuan dalam
bidang psikologi mengenai karakteristik psikometri pada CFIT sehingga dapat
memberikan informasi apakah CFIT masih berfungsi sesuai dengan tujuan
aitem-aitem pada subtes-subtes tersebut disusun.
2. Manfaat Praktis
a) Penelitian ini diharapkan dapat memberikan masukan bagi para akademisi
psikometri untuk merevisi CFIT di masa yang akan datang.
b) Penelitian ini diharapkan dapat menjadi bahan pertimbangan bagi para
praktisi psikologi dalam menggunakan CFIT sebagai alat pengukur
BAB II
LANDASAN TEORI
Pada dasarnya, ilmu pengukuran psikologis memiliki dua pendekatan,
yaitu pendekatan classical test theory (selanjutnya akan disebut CTT) dan item
response theory (selanjutnya akan disebut IRT). Pendekatan CTT adalah metode
pertama yang dikembangkan untuk pengukuran. Teori-teori CTT mendominasi
pengembangan rumus reliabilitas dan validitas yang dikenal dewasa ini
(Suryabrata, 2005).
A. Classical Test Theory (CTT)
1. Pengertian CTT
Model dari pendekatan teori tes klasik ini disebut juga sebagai model skor
murni (true score model). Pendekatan ini telah berhasil meletakkan dasar-dasar
konsep dalam analisis karakteristik psikometri perangkat ukur psikologi (Crocker
& Algina, 2005). Pendekatan CTT ini juga telah berkontribusi dalam
pengembangan pengukuran psikometri dan pendekatan ini dianggap sebagai
model yang sederhana dan kuat. Fokus utama dari pendekatan ini adalah
informasi pada level tes dan juga menyediakan informasi mengenai aitem-aitem
yang digunakan (Coaley, 2009). Selain itu, teori tes klasik ini juga praktis dan
tidak memerlukan perhitungan yang rumit (Kaplan & Saccuzo, 2005). Oleh
karena itu, peneliti mempertimbangkan menggunakan pendekatan CTT dalam
2. Asumsi-asumsi dalam CTT
Asumsi-asumsi CTT pada dasarnya merupakan hubungan matematis
antara skor tampak yang disimbolkan dengan huruf X, skor murni yang
dilambangkan dengan huruf T, dan eror pengukuran yang diberi simbol huruf E.
Skor tampak merupakan nilai performansi subjek yang diungkap melalui
pengukuran yang dinyatakan dalam bentuk angka yang merupakan nilai total dari
jawaban subjek terhadap aitem atau pernyataan dalam tes tersebut. Skor murni
menjelaskan bahwa performansi subjek sesungguhnya yang tidak mungkin dapat
diungkap secara langsung oleh tes. Eror pengukuran merupakan besaran eror
subjek dalam setiap tes yang angkanya juga tidak dapat diketahui dengan pasti
(Azwar, 2005).
Pendekatan CTT terdiri dari asumsi-asumsi yang berkaitan dengan skor
tampak, skor murni dan komponen eror pengukuran. Allen & Yen (dalam Azwar,
2005) menjabarkan asumsi-asumsi hubungan antara skor tampak, eror pengukuran
dan skor murni sebagai berikut:
Asumsi 1: X = T + E (1)
Asumsi ini didasarkan pada model Spearman yang menyatakan bahwa
setiap skor tes menggambarkan gabungan dari skor murni dan komponen eror
(Crocker & Algina, 2005). X merupakan jumlah T dan E, sehingga besar X akan
tergantung oleh besarnya E pengukuran, sedangkan besarnya T subjek pada setiap
pengukuran yang sama diasumsikan selalu tetap. Jadi dapat disimpulkan bahwa
skor yang diperoleh dari suatu pengukuran umumnya tidak menunjukkan keadaan
Asumsi 2: ε(X) = T (2) Asumsi ini menyatakan bahwa T sama dengan nilai harapan dari X-nya
yang dilambangkan dengan ε(X). Jadi, T merupakan harga rata-rata dari distribusi teoretik X apabila orang yang sama dikenai tes yang sama berulangkali dengan
asumsi pengulangan tes itu dilakukan tidak terbatas banyaknya dan setiap
pengulangan tes adalah independen satu sama lain.
Asumsi 3: = 0 (3)
Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes,
distribusi E pengukuran dan distribusi T tidak berkorelasi satu sama lain.
Implikasinya, skor murni yang tinggi tidak selalu berarti mengandung eror yang
selalu positif ataupun selalu negatif atau mempunyai E lebih tinggi dibanding
subjek yang T-nya rendah.
Asumsi 4: = 0 (4)
Asumsi ini menyatakan bahwa eror pada dua tes ( yang dimaksud untuk
mengukur hal yang sama) tidak saling berkorelasi. Artinya besarnya E pada suatu
tes tidak tergantung pada E tes lainnya. Asumsi ini akan tidak terpenuhi sekiranya
skor tampak dipengaruhi kondisi testing, seperti misalnya kelelahan, efek latihan,
suasana hati, atau faktor-faktor dari lingkungan (Suryabrata, 2005).
Asumsi 5 : = 0 (5)
Asumsi ini menyatakan bahwa E pada suatu tes tidak berkorelasi dengan T
pada tes lain. E yang dimaksud dalam CTT adalah penyimpangan X dari skor
harapan teoritik yang terjadi secara random atau tidak terjadi secara sistematik.
Jika penyimpangan terjadi secara sistematik maka itu tidaklah dianggap sebagai
Selain lima asumsi yang telah diuraikan, terdapat dua asumsi lagi yang
dijelaskan oleh Suryabrata (2005), yaitu:
Asumsi 6
Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama
mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan untuk
setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, maka
kedua tes tersebut disebut sebagai tes yang paralel.
Asumsi 7
Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama
mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan
apabila untuk setiap populasi subjek T1 = T2 + C, dengan C sebagai suatu
bilangan konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara
(equivalent test).Dua tes yang setara dapat memiliki varians eror yang berbeda
karena keduanya belum tentu merupakan tes yang paralel, namun dua tes yang
paralel tentu memenuhi syarat sebagai tes yang setara (Azwar, 2005).
B. Analisis Karakteristik Psikometri
Analisis aitem merupakan suatu prosedur untuk meningkatakan validitas
dan reliabilitas suatu alat tes dengan cara memilih aitem-aitem yang baik sesuai
dengan tujuan alat tes (Crocker & Algina, 2005). Menurut Kaplan & Saccuzo
(2005), alat tes yang baik memiliki aitem yang baik. Aitem yang baik dapat dilihat
melalui analisis terhadap beberapa parameter, seperti indeks kesukaran aitem dan
1. Indeks Kesukaran Aitem
a. Pengertian Indeks Kesukaran Aitem
Indeks kesukaran aitem adalah rasio antara subjek yang menjawab aitem
dengan benar dan total subjek yang menjawab aitem tersebut. Indeks kesukaran
aitem ditentukan oleh seberapa banyak peserta tes berhasil menjawab aitem
dengan benar. Semakin banyak peserta tes menjawab dengan benar, berarti
semakin mudah aitem tersebut dan sebaliknya semakin sedikit peserta menjawab
dengan benar, maka semakin sulit aitem tersebut (Azwar, 2007).
b. Analisis Indeks Kesukaran Aitem
Taraf kesukaran suatu aitem dinyatakan oleh suatu indeks yang dinamakan
indeks kesukaran aitem yang disimbolkan dengan huruf p, dengan rumus :
p = ni / N (6)
Keterangan:
p = Derajat kesukaran aitem
ni = Banyak peserta tes yang menjawab benar
N = Banyak peserta tes yang menjawab aitem
Azwar (2007) menyatakan bahwa taraf kesukaran yang terbaik bergantung
pada tujuan dari tes tersebut. Misalnya, tes prestasi yang bertujuan untuk evaluasi
formatif misalnya, tidak jarang diperlukan aitem-aitem dengan taraf kesukaran
rendah atau aitem-aitem dengan harga p tinggi. Namun untuk tes yang bertujuan
untuk proses seleksi masuk, terlebih dalam tes masuk yang bertujuan untuk proses
pendidikan harus diusahakan tes yang memiliki harga p yang rendah atau aitem
yang sulit, sehingga subjek yang dinyatakan lulus selanjutnya adalah subjek yang
Tes disusun untuk melihat perbedaan subjek sehingga jika tidak ada
seorang pun yang menjawab pertanyaan dengan benar, dalam artian aitem sangat
susah (p = 0), atau sebaliknya, jika soal sangat gampang sehingga semua dapat
menjawab pertanyaan dengan benar (p= 1) maka tujuan alat tes tidak dapat
dipenuhi (Murphy & Davidshofer, 2003). Gregory (2000) mengkategorikan nilai
p sebagai berikut:
Tabel 1. Kategori Batasan Nilai p
No. P Kategori
1 p < 0,3 Sulit
2 0.3 <p< 0,7 Sedang
3 p > 0,7 Mudah
2. Indeks Diskriminasi Aitem
a. Pengertian Indeks Diskriminasi Aitem
Daya diskriminasi aitem merupakan kemampuan aitem dalam
membedakan antara subjek yang memiliki atribut psikologis yang diukur dengan
subjek yang tidak memiliki atribut psikologis yang diukur (Azwar, 2007). Murphy
dan Davidshofer (2003) mengatakan bahwa aitem yang baik seharusnya mampu
membedakan kelompok subjek yang mampu dan yang tidak mampu mengerjakan
suatu tes dengan baik. Menurut Azwar (2007), secara sederhana dapat dikatakan
bahwa indeks diskriminasi aitem merupakan suatu harga yang menunjukkan
perbedaan proporsi penjawab aitem dengan benar antara kelompok dengan
b. Analisis Indeks Diskriminasi Aitem
Diskriminasi aitem yang maksimal akan dicapai ketika seluruh subjek
kelompok tinggi dapat menjawab aitem dengan benar dan seluruh subjek
kelompok rendah tidak mampu untuk menjawabnya. Perbedaan proporsi
penjawab aitem dengan benar antara kelompok tinggi dengan kelompok rendah
dapat dirumuskan sebagai berikut :
d = niT / NT – niR / NR (7)
Keterangan:
niT = Jumlah peserta dari kelompok tinggi yang menjawab aitem dengan benar
NT = Jumlah peserta dari kelompok tinggi
niR = Jumlah peserta dari kelompok rendah yang menjawab item dengan benar
NR = Jumlah peserta dari kelompok rendah
Karena ni / N= p, maka dapat juga dirumuskan dengan:
d = pT - pR (8)
Keterangan:
pT = Indeks kesukaran item kelompok tinggi
pR = Indeks kesukaran item kelompok rendah
Secara matematik indeks diskriminasi aitem akan berkisar mulai dari -1
sampai dengan +1. Namun demikian hanya harga d yang bernilai positif saja yang
memiliki arti dalam analisis aitem (Azwar, 2007).Harga d yang berada disekitar 0
menunjukkan bahwa aitem tersebut mempunyai diskriminasi yang rendah
sedangkan harga d yang negatif menunjukkan bahwa aitem tesebut tidak berguna
Indeks diskriminasi aitem yang ideal adalah yang mendekati angka 1,
semakin besar indeks diskriminasi (semakin mendekati 1) berarti aitem tersebut
mampu membedakan antara subjek yang menguasai materi yang diujikan dengan
yang tidak menguasainya. Semakin kecil diskriminasi aitem (semakin mendekati
0) berarti semakin tidak jelaslah fungsi aitem yang bersangkutan dalam
membedakan mana subjek yang menguasai materi yang diujikan dan subjek yang
tidak tahu apa-apa (Azwar,2007).
Ebel (dalam Azwar, 2007) memberikan suatu panduan dalam evaluasi
[image:31.595.157.466.336.410.2]indeks diskriminasi aitem, yaitu :
Tabel 2. Evaluasi Indeks Diskriminasi Aitem
d Evaluasi
0,4 atau lebih Bagus sekali
0,3 - 0,39 Lumayan bagus, tidak membutuhkan revisi
0,2 – 0,29 Belum memuaskan, perlu revisi
d < 0,20 Jelek dan harus dibuang
Thorndike (dalam Azwar, 2007) mengatakan bahwa dalam proses seleksi
aitem, aitem-aitem yang memiliki nilai diskriminasi aitem di atas 0,50 akan
langsung dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di
bawah 0,20 dapat langsung dibuang dan dianggap jelek.
Menurut Murphy dan Davidshofer (2003) ada tiga cara statsistik yang
dapat digunakan untuk mengukur indeks diskriminasi aitem, yaitu:
1)Metode kelompok ekstrim
Metode kelompok ekstrim merupakan cara yang mudah untuk mengukur
indeks diskriminasi aitem pada kelompok yang besar. Indeks diskriminasi aitem
dihitung dengan cara membagi kelompok menjadi dua, Upper group yakni
kelompok yang memiliki skor yang tinggi (25-35 % nilai tertinggi didalam
(25-35 % nilai terendah dalam kelompok). Aitem yang memiliki indeks
diskriminasi yang baik akan dijawab benar oleh upper group dan dijawab salah
oleh lower group.
2)Korelasi aitem-total
Korelasi aitem-total memberikan informasi tentang apakah aitem
mengukur hal yang sama dengan tes. Korelasi aitem-total untuk aitem yang
diskor 1 jika benar dan 0 jika salah sering juga disebut korelasi poin biserial.
Korelasi poin biserial digunakan apabila aitem-aitem dalam tes berbentuk
dikotomi. Nilai positif menunjukkan bahwa aitem dan tes mengukur hal yang
sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki
indeks diskriminasi yang baik sehingga upper group menjawab pertayaan dengan
salah dan lower group menjawab pertanyaan dengan benar.
3)Korelasi inter-aitem
Korelasi inter-aitem digunakan untuk memahami indeks diskriminasi
aitem. Korelasi inter-aitem tidak menjelaskan mengapa beberapa aitem
menunjukkan nilai yang tinggi atau rendah karena sangat jelas bahwa aitem yang
memiliki nilai korelasi aitem total yang positif akan menunjukkan nilai yang
positif juga pada kebanyakan aitemnya. Namun korelasi aitem total tidak dapat
menjelaskan mengapa korelasi aitem total dapat bernilai negatif tetapi hal ini
dapat dijelaskan dengan menggunakan korelasi inter-aitem.
Korelasi inter-aitem dapat membantu dalam memahami mengapa beberapa
aitem gagal dalam membedakan subjek yang memiliki kemampuan dengan subjek
yang tidak memiliki kemampuan, dalam artian upper group menjawab dengan
Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti,
kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes,
sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem
memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang
disusun untuk mengukur dua atribut yang berbeda.
3. Reliabilitas Alat Ukur
a. Pengertian Reliabilitas
Menurut Oslterlind (2010), reliabilitas mengarah pada ketepatan dalam
pengukuran mental yang ditentukan oleh kekonsistenan dari pengukuran paralel
secara acak dari beberapa pengukuran. Pengertian reliabilitas diterapkan dalam
dua konteks. Pertama, reliabilitas mengungkap ketepatan instrumen pengukuran,
sebagaimana dalam indeks reliabilitas (dikalkulasi sebagai koefisien reliabilitas),
dan kedua, reliabilitas diterapkan dalam antar-subjekal untuk testee, sebagaimana
dispesifikasi dalam standar error pengukuran (SEM). Reliabilitas juga menandai
konsep untuk mengestimasi seberapa baik sampel aitem mewakili keseluruhan
aitem untuk konstruk laten atau konten domain. Semakin reliabel sebuah
pengukuran, semakin kecil error yang diungkap dalam skor dan semakin
terpercaya interpretasi yang dihasilkan.
Reliabilitas bergantung pada konteks penggunaan reliabilitas itu sendiri.
Terdapat banyak perspektif pada reliabilitas, tergantung pada defenisi error yang
digunakan dan defenisi konstruk laten maupun konten domain yang telah
ditentukan sebelumnya.
Menurut Azwar (2005), reliabilitas merupakan terjemahan dari kata
konsistensi dan sebagainya, namun pada intinya konsep reliabilitas memiliki
makna sejauh mana hasil suatu pengukuran dapat dipercaya. Menurut Anastasi &
Urbina (2006) reliabilitas suatu tes merujuk pada konsistensi skor yang di peroleh
oleh subjek yang sama ketika diberikan tes ulang yang sama atau seperangkat tes
yang ekivalen dengan tes sebelumnya pada kondisi yang berbeda. Suryabrata
(2005) menyatakan bahwa reliabilitas alat ukur menunjukkan sejauh mana hasil
pengukuran dengan alat tersebut dapat dipercaya, yang mana hal ini ditunjukkan
oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat
yang sama atau minimal setara, dalam kondisi yang berbeda. Oleh sebab itu,
konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua
perangkat skor tes, maka rumus reliabilitas selalu dinyatakan dalam bentuk
koefisien korelasi (Azwar, 2005).
Lord dan Novick (dalam Osterlind, 2010), memberikan defenisi reliabilitas
sebagai “reliabilitas sebuah tes didefenisikan sebagai kuadrat korelasi antara skor
tampak dan skor murni”, sebagaimana dalam rumus :
ρ
2XT (9)
Menurut Osterlind (2010), reliabilitas juga dievaluasi dengan konsistensi
pengukuran ketika pengukuran diulang terhadap subjek atau kelompok dari
sebuah populasi. Semakin konstan pengukuran tersebut dalam
pengukuran-pengukuran yang diulang, maka semakin tinggi reliabilitasnya.
ρ
XT (10)Gulliksen (dalam Osterlind, 2010) mengatakan bahwa reliabilitas adalah
adalah antara dua skor-skor tampak atau kumpulan-kumpulan skor. Hal ini
ditunjukkan dalam rumus:
ρ
x1x2 (11)b. Metode Estimasi Reliabilitas
Reliabilitas alat ukur juga menunjukkan eror pengukuran yang tidak dapat
ditentukan secara pasti, hanya dapat diestimasi (Suryabrata, 2005). Estimasi
reliabilitas dapat dibagi ke dalam tiga bentuk metode, yaitu pendekatan tes ulang,
pendekatan tes paralel, dan pendekatan konsistensi internal (Azwar, 2005 dan
Suryabrata, 2005).
1) Pendekatan tes ulang
Pendekatan ini dilakukan dengan cara menyajikan tes yang sama dua kali
pada suatu kelompok yang sama dalam rentang waktu tertentu, minsalnya dua
minggu (Suryabrata, 2005). Asumsinya adalah suatu tes yang reliabel akan
menghasilkan skor tampak yang relatif sama apabila diberikan dua kali tes dalam
waktu yang berbeda pada sekelompok subjek yang sama (Azwar, 2005).
Pendekatan tes ulang ini dapat dikatakan baik secara teori, namun dalam
prakteknya mengandung kelemahan, yaitu kondisi subjek pada tes kedua tidak
lagi sama dengan kondisi subjek pada tes pertama baik dari proses belajar,
perubahan motivasi, pengalaman, sehingga pendekatan ini lebih baik digunakan
bila objek ukur berupa keterampilan, terutama keterampilan fisik (Suryabrata,
2005). Menurut Azwar (2005), pendekatan tes ulang cocok digunakan hanya bagi
tes yang mengukur aspek psikologis yang relatif stabil dan tidak mudah berubah.
Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah
2) Pendekatan tes paralel
Pendekatan reliabilitas bentuk paralel dilakukan dengan memberikan dua
bentuk tes yang paralel pada sekelompok subjek, yaitu tes yang memiliki tujuan
ukur yang sama dan isi aitem yang setara secara kualitas maupun kuantitas
(Azwar, 2005). Pendekatan ini disebut juga sebagai alternate form yang
digunakan untuk mengatasi kelemahan pendekatan tes ulang (Kumar, 2009).
Menurut Azwar (2005), dua tes yang paralel hanya ada secara teoritis, tidak
benar-benar paralel secara empirik. Rumus yang dapat digunakan untuk
menentukan reliabilitas tes ulang adalah korelasi Pearson product moment
(Azwar, 2005)
3) Pendekatan konsistensi internal
Pendekatan ini dilakukan dengan memberikan satu bentuk tes dengan
sekali penyajian kepada sekelompok subjek yang bertujuan melihat konsistensi
antar aitem atau antar bagian dalam tes tersebut serta menghindari
masalah-masalah pada pendekatan tes ulang dan paralel. Seperangkat tes diberikan kepada
sekelompok subjek satu kali sehingga diperoleh satu distribusi skor tes dari
kelompok subjek tersebut. Prosedur analisis reliabilitasnya diarahkan pada analisis
terhadap aitem-aitem atau terhadap kelompok-kelompok aitem dalam tes itu
sehingga perlu dilakukan pembelahan tes menjadi beberapa kelompok aitem yang
disebut belahan tes. Setiap cara pembelahan tes sebaiknya mengusahakan agar
antar belahan memiliki jumlah aitem sama banyak, indeks kesukaran seimbang,
isi sebanding, dan tujuan ukur yang sama atau dalam artian pembelahan aitem
memenuhi ciri-ciri paralel (Azwar, 2005). Berikut beberapa cara dalam
(a). Pembelahan cara random
Membelah tes menjadi dua bagian secara random dapat dilakukan dengan
cara undian sederhana guna menentukan aitem-aitem nomor berapa sajakah yang
dimasukkan menjadi belahan pertama dan yang mana menjadi belahan kedua.
Pembelahan secara random hanya boleh dilakukan bila tes yang akan dibelah
berisi aitem-aitem yang homogen baik dari segi konten maupun segi indeks
kesukaran aitem, namun jika aitem tersebut heterogen dapat juga menggunakan
cara pembelahan ini asalkan aitem tersebut jumlahnya sangat besar (Azwar,
2005).
(b). Pembelahan gasal-genap
Pembelahan gasal-genap dilakukan dengan cara mengelompokkan seluruh
aitem yang bernomor urut gasal menjadi belahan pertama dan seluruh aitem yang
bernomor urut genap dijadikan satu kelompok belahan kedua. Cara pembelahan
ini selain mudah dilakukan juga dapat menghindari kemungkinan terjadinya
pengelompokkan aitem-aitem tertentu ke dalam salah satu belahan saja (Azwar,
2005).
(c). Pembelahan matched-random subtes
Pembelahan dengan cara matched-random subtes ditemukan oleh
Gulikksen tahun 1950 (dalam Azwar, 2005). Sebelum melakukan pembelahan tes
terlebih dahulu harus dihitung indeks kesukaran aitem serta korelasi aitem dengan
skor total tes. Dengan cara ini setiap aitem dalam tes diletakkan pada satu posisi
atau titik tertentu dalam grafik berdasarkan harga indeks kesukaran aitem dan
Selain beberapa cara pembelahan tes telah diuraikan, reliabilitas
berdasarkan konsistensi internal juga dapat diestimasi dengan beberapa rumus
(Azwar, 2005).
(a). Spearman-Brown
Rumus Spearman-Brown digunakan untuk metode split-half atau belah
dua (Kumar, 2009 dan Crocker & Algina, 2003). Rumus komputasi
Spearman-Brown merupakan rumus koreksi terhadap koefisien korelasi antara dua bagian tes
dan dirumuskan sebagai beikut (Azwar, 2005):
S-B = rxx’= (12)
Keterangan:
rxx’ =Koefisien reliabilitas Spearman-Brown
r1.2 = Koefisien korelasi antara dua belahan
(b). Koefisien Alpha
Cara-cara pembelahan dapat diperluas pemakaiannya untuk membagi tes
menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi reliabilitasnya
dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya sehingga setiap
bagian hanya berisi satu aitem saja. Koefisien Alpha akan lebih baik jika
pembelahan paralel satu sama lain atau setidaknya dapat memenuhi asumsi τ
-equivalent. Rumusan rumus Alpha adalah sebagai berikut (Azwar, 2005):
α = (13)
Keterangan :
= banyaknya belahan tes
= varians skor tes
Rumus ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap
belahan memiliki aitem yang relatif setara, paralel atau setidaknya memenuhi
asumsi τ-equivalent. Selain itu, aitem-aitem dalam tes haruslah homogen agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya.
(c). Kuder-Richardson 20 (KR-20)
KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua
yang mungkin dilakukan. Rumus ini juga disebut sebagai koefisien α-20. Koefisien ini mencerminkan sejauhmana kesetaraan isi aitem-aitem dalam tes.
Rumusan rumus KR-20 adalah (Azwar, 2005):
(14)
Keterangan :
= banyaknya aitem dalam tes
= varians skor tes
p = proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu banyaknya
subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang
menjawab aitem tersebut.
Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan
membelahan tes sebanyak jumlah aitem agar estimasi yang diperoleh dapat
(d). Kuder-Richardson 21
Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem,
Hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan KR-21
adalah (Azwar, 2005):
(15)
Keterangan :
= banyaknya aitem dalam tes
= rata-rata p yaitu,
= varians skor tes
Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan
membelahan tes sebanyak jumlah aitem. Indeks kesukaran aitem haruslah setara
satu sama lain agar estimasi reliabilitas mendekati nilai yang sesungguhnya. Jadi,
indeks kesukaran aitem yang sangat bervariasi mengakibatkan estimasi reliabilitas
akan lebih rendah dari pada menggunakan KR-20.
(e). Rulon
Rulon mengusulkan suatu formula komputasi untuk mengestimasi
reliabilitas skor dengan pendekatan belah dua tanpa perlu berasumsi bahwa kedua
belahan tersebut mempunyai sifat t-equivalent sepanjang jumlah aitem pada kedua
belahan adalah sama. Formula Rulon dirumuskan sebagai :
2 x 2
d S
S 1
r ' = − /
xx (16)
Keterangan :
2 d
S = Varians perbedaan skor kedua belahan
2 x
S = Varians skor tes
d = Perbedaan skor kedua belahan
(c). Reliabilitas Skor Komposit
Ada kalanya skor tes sebagai deskripsi kuantitatif atribut dalam diri subjek
tidak diperoleh langsung dari sekedar penjumlahan skor aitem-aitemnya,
melainkan didapat dari komposisi atau penggabungan dari bebrapa skor. Beberapa
skor tersebut dapat berupa skor dari bagian-bagian tes itu sendiri, yaitu komponen
atau subtesnya, dapat pula berasal dari tes-tes yang berbeda sebagai suatu baterai
instrumen. Dalam hal ini masing-masing komponen atau bagian tes akan
memeberikan bobot yang tersendiri dalam menentukan skor tes (Azwar, 2012).
Bobor relatif suatu komponen ditentukan oleh besarnya sumbangan
komponen tersebut dalam menentukan skor akhir, misalnya suatu komponen yang
berisi lebih banyak aitem akan lebir besar bobotnya. Begitu pula suatu komponen
yang mungkin aitemnya tidak banyak akan tetapi karena mempunyai tingkat
kesukaran yang tinggi akan dapat diberi bobot yang besar. Skor akhir tes seperti
itu merupakan suatu komposit, yaitu penggabungan skor beberapa komponen
setelah melalui prosedur atau penyetaraan skor (Azwar, 2012).
Reliabilitas skor komposit ditentukan oleh reliabilitas skor komponennya.
Banyaknya komponen yang membentuk skor tes akhir tidak terbatas pada dua
atau tiga saja. Estimasi dapat dilakukan terhadap reliabilitas masing-masing
komponen secara terpisah dan bila reliabilitas setiap komponen itu cukup tinggi
yang tinggi (Azwar, 2012). Bila diinginkan untuk memperoleh estimasi tunggal
terhadap skor komposit, dapat digunakan formula yang disarankan oleh Mosier
(dalam Azwar, 2012), yaitu:
[
]
(
)
[
∑
∑
+∑
∑
]
− − = jk k j k j j j jj j j j j xx r s s w w s w r s w s w 21 2 2
2 2 2 ' ' r (17) Keterangan :
Wj = bobot relatif komponen j
Wk= bobot relatif komponen k
Sj = deviasi standar komponen j
Sk = deviasi standar komponen k
rjj’ = koefisien reliabilitas tiap komponen
rjk = koefisien relatif antara dua komponen yang berbeda
c. Standar Error Pengukuran dan Interpretasi Koefisien Reliabilitas
Menurut Osterlind (2010), standar error pengukuran (SEM)
mengindikasikan kesenjangan antara skor tampak dan skor murni. Standar error
pengukuran juga didefenisikan sebagai standar deviasi sebuah distribusi dari
keseluruhan skor untuk semua subjek. Karena teori mengasumsikan distribusi
yang setara dan normal untuk semua subjek dalam populasi, standar error
pengukuran bisa dipandang sebagai rata-rata standar deviasi pada keseluruhan
mean skor.
Standar error pengukuran menyediakan informasi mengenai akurasi dari
nilai mean sebagai perwakilan skor murni, sehingga bisa dikatakan bahwa mean
tersebut adalah indikator dari error. Hal ini penting karena mengarah pandangan
pengukuran sering dimengerti sebagai analogi dari indeks reliabilitas. Indeks
reliabilitas adalah pengukuran yang mengidikasikan kekurangan error, kebalikan
dari SEM. Indeks reliabilitas didefenisikan sebagai korelasi sederhana antara
bentuk-bentuk paralel sebuah tes (Osterlind, 2010).
Standar error pengukuran merupakan fungsi dari reliabilitas (dan
sebaliknya) ketika standar deviasi sebuah tes telah diketahui. Hubungan ini, dalam
CTT, antara standar error pengukuran dan reliabilitas sudah terlihat ketika standar
deviasi tetap konstan pada seluruh rentang skor sebuah tes. Standar deviasi yang
konstan juga terlihat ketika skor ditunjukkan sebagai skor standar dalam unit-unit
standar deviasi (Osterlind, 2010).
Secara teoritik, koefisien reliabilitas berkisar antara 0 sampai 1, namun
secara empirik koefisien reliabilitas tidak pernah mencapai 1. Artinya terdapat
ketidakkonsistenan skor antara dua tes yang paralel yang disebabkan oleh eror
yang mempengaruhi performa subjek dalam mengikuti tes atau perbedaan antara
skor tampak dan skor murni subjek (Crocker & Algina, 2005). Penafsiran
terhadap koefisien reliabilitas dapat dilakukan melalui penafsiran standar eror
pengukuran (SEm), dengan rumusan sebagai berikut:
(18)
Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan
kesalahan yang terjadi akan semakin kecil. Jadi, tidak ada harga mati dalam
koefisien reliabilitas. Tinggi rendahnya koefisien reliabilitas sangat bergantung
Murphy dan Davidshofer (2003) menjelaskan bahwa makna tinggi atau
rendahnya koefisien reliabilitas tergantung pada tipe dari tes yang dikategorikan
[image:44.595.123.500.174.351.2]sebagai berikut:
Tabel 3. Kategori Nilai Estimasi Koefisien Reliabilitas
Nilai estimasi reliabilitas
Bentuk Tes Interpretasi
0.95
Tes inteligensi
Eror pengukuran memiliki efek yang sangat rendah
0.90 Tinggi sampai sedang
0.85 Tes prestasi
0.80
0.75 Kelompok tes pilihan ganda Sedang sampai rendah
0.70 Skala
0.65 Rendah
0.60 Tes proyektif
0.55
0.50 Skor murni dan eror pengukuran
seimbang pada skor tes
d. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas
Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara
tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu
instrumen tes, yaitu:
1) Homogenitas Kelompok
Koefisien reliabilitas suatu tes akan dipengaruhi oleh variasi antara skor
murni dan eror kelompok subjek atau skor tampak kelompok subjek. Semakin
besar homogenitas kelompok semakin rendah nilai koefisien reliabilitas suatu tes
dibandingkan dengan kelompok subjek yang heterogen.
2) Batasan Waktu dalam Tes
Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki
indeks reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang
lebih pendek. Hal tersebut dikarenakan performansi subjek pada tes yang lebih
lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor,
termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut.
3) Panjang Tes
Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya
aitem-aitem yang menyusun tes tersebut. Semakin banyak aitem yang memiliki
kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas tes
tersebut.
4. Validitas
a. Pengertian Validitas
Menurut Osterlind (2010), validitas merupakan inti dari pengujian mental.
Validitas berarti bahwa informasi yang diungkap oleh sebuah tes adalah informasi
yang sesuai, bermakna, dan berguna untuk pengambilan keputusan yang
merupakan tujuan pengukuran mental. Standards Text (dalam Osterlind, 2010)
mendeskripsikan bahwa validitas adalah pertimbangan yang paling fundamental
dalam mengembangkan dan mengevaluasi tes dimana validitas mengarah pada
sejauh mana bukti dan teori mendukung interpretasi skor tes berdasarkan tujuan
penggunaan tes. Garrett (dalam Osterlind, 2010) mengatakan bahwa validitas
suatu tes merupakan tingkat dimana suatu alat tes mengukur apa yang hendak
diukurnya.
Kumar (2009) menyatakan validitas suatu tes mengambarkan ketepatan
alat ukur mengukur apa yang akan diukur dengan membandingkan alat ukur
tersebut dengan standar atau kriteria yang telah ditetapkan. Menurut Azwar
(2005), validitas mempunyai arti sejauhmana ketepatan dan kecermatan suatu alat
dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan
fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud
dilakukannnya pengukuran tersebut, sehingga pengertian validitas terlihat
berkaitan sangat erat dengan tujuan pengukuran. Suatu alat ukur biasanya hanya
merupakan ukuran yang valid untuk satu tujuan yang spesifik. Pernyataan valid
terhadap suatu pengukuran harus diikuti oleh keterangan yang menunjuk kepada
tujuan awal pengukuran serta kelompok subjek yang mana yang hendak diukur
(Azwar, 2005).
b. Sumber-sumber Bukti Validitas
Bukti-bukti validitas harus terkumpul dari banyak sumber ketika akan
mengevaluasi validitas. Sumber-sumber ini memberikan informasi mengenai
tingkat kepercayaan untuk membuat kesimpulan-kesimpulan berdasarkan skor
dalam situasi tertentu (Osterlind, 2010). Beberapa bukti yang mendukung dalam
mengevaluasi validitas diberikan dalam Standards for Educational and
Psychological Testing/Standards text (American Educational Research
Association, dkk, 1999, dalam Osterlind 2010).
1) Bukti Validitas Berdasarkan Isi Tes
Mengevaluasi bukti untuk kesimpulan yang valid dari skor tes hampir
selalu memasukkan informasi mengenai isi dari suatu pengukuran yang secara
khusus mengarah pada content domain (dalam pengukuran berdasarkan domain)
atau konstruk (dalam model trait tersembunyi). Banyak fungsi mental, seperti IQ
dan proses psikologi lainnya, yang bisa diterangkan sebagai pengukuran konstruk,
trait, atau domain. Ketika menilai konstruk psikologis yang tidak mudah untuk
tentang inteligensi manusia penuh dengan pemikiran dan teori yang berlainan
tentang apa yang termasuk dan tidak termasuk. Dalam hal ini spesifikasi konstruk
dibutuhkan dalam tujuan yang berbeda. Ketika membangun sebuah instrumen,
seringkali orang yang mengembangkan tes mengkombinasikan deskripsi isi tes
dan jenis proses respon dalam sebuah blueprint tes, dimana blueprint ini bisa
menjadi dokumen yang sangat berguna bagi pengguna tes ketika akan
mengevaluasi validitas berdasarkan isi tes. Menurut Azwar (2005), Validitas isi
menunjukkan sejauhmana aitem-aitem dalam tes mencakup keseluruhan kawasan
isi objek atau ciri atribut yang hendak diukur. Validitas isi ini diestimasi lewat
pengujian terhadap isi tes dengan analisis rasional atau lewat professional
judgement. Dengan kata lain validitas isi sangat tergantung pada penilaian
subjektif subjekal dan tidak melibatkan perhitungan statistik.
2) Bukti Validitas Berdasarkan Proses Respon
Pengujian mental atau proses kognitif digunakan untuk mengungkap
respon terhadap stimulus pengukuran adalah sumber lain untuk bukti validitas.
Beberapa metode berdasarkan variabel-variabel laten dan proses kausal sebuah
konstruk mungkin memasukkan analisis variabel laten, structural equation
modeling (SEM), Hierarchical linear modeling(HLM), dan beberapa
meta-analisis. Metode-metode ini juga bisa mengungkap informasi penting mengenai
proses respon subjek.
3) Bukti Validitas Berdasarkan Struktur Internal
Struktur internal tes sangat berhubungan dengan pembuatan kesimpulan
yang sesuai dan terpercaya mengenai konstruk yang sedang diukur. Ada beberapa
tetapi tidak ada satu metode pun yang dianggap terbaik secara umum. Kesesuaian
metode yang digunakan tergantung pada konteks dimana tes dikembangkan,
bagaimana tes tersebut digunakan dan keputusan apa yang ingin diinformasikan.
Beberapa cara yang relevan untuk mempelajari pengukuran struktur internal
sebagai berikut :Analisis faktor, analisis kluster, analisis komponen prinsipal,
konfirmasi teori psikologi: faktor analisis konfirmatori, multitrait-multimethod
matrix, teknik estimasi parameter kemampuan (IRT), strategi-strategi yang
melibatkan teori kemampuan-generalisasi.
Model faktor umum (common factor model) adalah teori satu faktor dari
Charles Spearman mengenai sebuah tes berisi aitem-aitem yang umum dan
memiliki pengaruh yang unik. Dalam situasi praktis untuk validasi tes, model
faktor umum diukur dengan menggunakan analisis faktor (factor analysis) atau
analisis komponen prinsipal (principal component analysis, PCA). Inti prosedur
ini adalah untuk mengurangi varians total diantara aitem-aitem dalam sebuah
matriks kovarians sehingga jumlahnya bisa diestimasi.
Menurut Azwar (2012), analisis faktor merupakan metode statistik yang
berisi kumpulan prosedur matematik yang kompleks dalam pengembangan alat
ukur untuk menganalisis adanya saling hubungan di antara variabel-variabel dan
menjelaskan saling hubungan tersebut dalam bentuk kelompok variabel yang
terbatas yang disebut faktor. Oleh karena validitas ini ditegakkan melalui prosedur
analisis faktor maka disebut sebagai validitas faktorial. Menurut Field (2009),
analisis faktor digunakan untuk melihat hubungan atau korelasi antara
Sebuah faktor adalah kombinasi aitem-aitem tes yang diyakini sebagai
suatu kumpulan. Aitem-aitem yang berhubungan membentuk sebagian dari
konstruk dan dikelompokkan bersama, aitem-aitem yang tidak berhubungan tidak
membentuk bagian dari konstruk dan harus dikeluarkan dari kelompoknya
(Munro, dalam Azwar, 2012).
Analisis faktor memiliki dua jenis prosedur yang dilandasi oleh dasar
pemikiran yang agak berbeda, yaitu analisis faktor eksploratori (exploratory
factor analysis, EFA) dan analisis faktor konfirmatori (confirmatory factor
analysis, CFA). Prosedur faktor analisis eksploratori membantu pengembang tes
dalam mengenali dan mengidentifikasi berbagai faktor yang membentuk suatu
konstruk dengan cara menemukan varians skor terbesar dengan jumlah faktor
yang paling sedikit yang dinyatakan dalam bentuk eigenvalue > 1,0 (Azwar,
2012). Prosedur analisis faktor konfirmatori biasanya akan menindaklanjuti hasil
EFA dengan menyertakan dasar teori yang melandasi bangunan tes tersebut agar
dapat menguji validitas konstruknya lebih lanjut. Jadi, CFA menguji sejauhmana
model statistik yang dipakai sesuai dengan data empirik (Waltz dkk., dalam
Azwar, 2012). Analisis faktor konfirmatori hampir selalu digunakan dalam proses
pengembangan instrument untuk menguji struktur laten suatu tes, dalam hal ini
CFA digunakan untuk memverifikasi banyaknya dimensi yang mendasari
bangunan suatu tes dan pola hubungan antara aitem dengan faktor (factor loading
atau yang disebut muatan faktor)(Brown, dalam Azwar, 2012).
Pada prosedur analisis faktor, tes yang dipengaruhi oleh faktor-faktor
tertentu disebut sebagai tes yang memiliki muatan faktor (factor loading) yang
koefisien korelasi. Bila faktor-faktor tidak berkorelasi satu sama lain maka muatan
faktor bukanlah koefisien korelasi akan tetapi seringkali diinterpretasikan
seakan-akan koefisien korelasi (Azwar, 2012).
Analisis struktur faktor dilakukan untuk melihat struktur internal tes
sebagai dukungan terhadap validitas model persamaan structural yang digunakan
dalam konstruksi tes yang bersangkutan (Azwar, 2012). Untuk tujuan tersebut
digunakan prosedur common factor analysis sebagai salahsatu metode pengujian
model, terutama yang mengikuti anggapan bahwa satu konstruk dasar akan
menghasilkan skor tampak (Aneshensel, dalam Azwar 2012). Bila model yang
diajukan ternyata cocok dengan data skor subjek, berarti struktur internal tes
adalah valid (Azwar, 2012)
Metode multitrait-multimatriks secara konseptual mirip dengan analisis
faktor yang merupakan prosedur untuk menganalisis hubungan dan menentukan
pola-pola data. Metode ini bisa menyediakan bukti validitas yang berguna untuk
evaluasi struktur internal. Dalam menggunakan metode ini harus berhati-hati
untuk menghindari kesalahan-kesalahan yang membingungkan informasi dari
metode multitrait-multimethod dengan yang diungkap melalui analisis faktor
(Osterlind, 2010). Campbell dan Fiske (dalam Azwar, 2012) telah
mengembangkan pendekatan ini yang dapat digunakan bilamana terdapat dua trait
atau lebih yang diukur oleh dua macam metode atau lebih. Dasar pemikiran dalam
proses validasi ini adalah bahwa validitas yang baik diperlihatkan oleh adanya
korelasi yang tinggi di antara hasil pengukuran terhadap trait yang sama oleh