Analisis Karakteristik Psikometri pada Culture Fair Intelligence Test (CFIT) Skala 3B

(1)

ANALISIS KARAKTERISTIK PSIKOMETRI

PADA

CULTURE FAIR INTELLIGENCE TEST

(CFIT) SKALA 3B

SKRIPSI

Diajukan untuk memenuhi persyaratan

Ujian Sarjana Psikologi

Oleh

AGUS MANURUNG

071301071

FAKULTAS PSIKOLOGI

(2)

LEMBAR PERNYATAAN

Saya yang bertanda tangan di bawah ini menyatakan dengan sesungguhnya

bahwa skripsi saya yang berjudul :

Analisis Karakteristik Psikometri

pada Culture Fair Intelligence Test (CFIT) Skala 3B

adalah hasil karya sendiri dan belum pernah diajukan untuk memperoleh gelar

kesarjanaan di suatu perguruan tinggi manapun.

Adapun bagian-bagian tertentu dalam penulisan skripsi ini saya kutip dari

hasil karya orang lain yang telah dituliskan sumbernya secara jelas sesuai dengan

norma, kaidah, dan etika penulisan ilmiah.

Apabila di kemudian hari ditemukan adanya kecurangan di dalam skripsi

ini, saya bersedia menerima sanksi dari Fakultas Psikologi Universita Sumatera

Utara sesuai dengan peraturan yang berlaku.

Medan, Februari 2014

Agus Manurung

(3)

ANALISIS KARAKTERISTIK PSIKOMETRI

PADA

(CFIT)

SKALA 3B

Agus Manurung dan Etty Rahmawati

ABSTRAK

Suatu alat tes psikologi harus memiliki kualitas yang baik secara psikometri sehingga proses dan penggunaan hasil pengukurannya dapat dipercaya. Alat tes yang baik diharapkan mampu berfungsi sesuai dengan tujuan disusunnya alat tes tersebut agar diperoleh hasil pengukuran yang objektif dan standard. Oleh karena itu, perlu dilakukan evaluasi terhadap kualitas alat tes yang digunakan sehingga diperoleh alat tes yang valid dan dan hasil pengukuran yang reliabel.Tujuan dari penelitian ini adalah melakukan analaisis karakteristik psikometri terhadap Culture Fair Intelligence Test (CFIT) Skala 3B yang mencakup analisis indeks kesukaran aitem, indeks diskriminasi aitem, reliabilitas, dan validitas konstrak alat tes tersebut. Metode pengumpulan data yang digunakan dalam penelitian ini adalah metode dokumentasi, yaitu dengan menggunakan data yang didokumentasikan oleh P3M Fakultas Psikologi USU dalam menyeleksi calon pegawai. Data yang digunakan berupa lembar jawaban peserta seleksi yang berjumlah 1623 lembar. Pendekatan yang digunakan adalah teori tes klasik. Hasil dari penelitian ini menemukan bahwa dari 50 aitem yang terdapat dalam CFIT Skala 3B terdapat 8 aitem yang memiliki indeks diskriminasi yang jelek, sedangkan 7 aitem memerlukan revisi. Terdapat pula beberapa aitem yang yang urutannya tidak sesuai dengan alur urutan indeks kesukaran pada subtes 2-4. Penelitian ini juga menemukan indeks reliabilitas yang tidak reliabel sebagai tes inteligensi yaitu sebesar 0,769. Selain itu, berdasarkan analisis validitas konstrak dengan analisis faktor konfirmatori, penelitian ini menemukan hanya terdapat 20 aitem yang memiliki muatan faktor standard di atas nilai kritikal dan hanya 14 aitem yang memiliki t-value di atas nilai kritikal, tetapi tidak ada aitem yang memenuhi keduanya untuk disebut valid sebagai bagian dari tes inteligensi.

(4)

PSYCHOMETRIC PROPERTIES ANALYSIS OF

CULTURE FAIR INTELLIGENCE TEST (CFIT)

SCALE 3B

Agus Manurung and Etty Rahmawati

ABSTRACT

A psychological test must have a good quality in psychometric so the process and the use of the result can be reliable. A good psychological test is expected to have function as the purpose of the test is made so we can get an objective and standard result. Hence, we need to evaluate the test quality so we can get a valid test and reliable measure result. The aim of this study is to analyze the psychometric properties of Culture Fair Intelligence Test (CFIT) Scale 3B include item difficulty index, item discrimination index, reliability, and construct validity of the test. This study uses documentation method by using data that documented by P3M Psychology Faculty of USU in applicants selection. The data is the applicants’ answer from 1623 answer sheets. This study uses classical test theory approach. The result of this study finds that from total 50 items in CFIT Scale 3B there are 8 items that have bad discrimination index and 7 items need to be revised. There are also few items that doesn’t fit with the item difficulty’s order in subtest 2-4. This study also finds that reliability index is unreliable as an intelligence test, only 0,769. Furthermore, based on construct validity analysis by confirmatory factor analysis, this study finds that there are only 20 items that have standardize loading factor above critical value and only 14 items that have t-value above critical value, but none of these items have both values above critical to be called valid as part of intelligence test.

(5)

KATA PENGANTAR

Puji dan syukur saya panjatkan kepada Tuhan Yang Maha Esa yang telah

memberikan rahmat dan karuniaNya dalam proses penyelesaian skripsi ini. Judul

skripsi ini adalah “Analisis Karakteristik Psikometri pada Culture Fair

Intelligence Test (CFIT) Skala 3B” yang disusun untuk memenuhi salah satu

syarat untuk mencapai gelar sarjana Psikologi di Fakultas Psikologi Universitas

Sumatera Utara. Penulis memang mengakui bahwa selama proses pengerjaan

skripsi ini dibutuhkan kemauan dan dorongan yang kuat untuk dapat

menyelesaikannya.

Penulis menyadari bahwa akan sangat sulit untuk menyelesaikan penulisan

skripsi ini apabila tanpa bantuan, bimbingan, dan dorongan dari berbagai pihak

sejak masa perkuliahan hingga penyusunan skripsi ini. Oleh karena itu, penulis

ingin mengucapkan rasa terima kasih kepada beberapa pihak :

1. Prof.Dr. Irmawati, psikolog selaku dekan Fakultas Psikologi USU

2. Pusat Pelayanan Psikologi pada Masyarakat (P3M) USU, terutama kepada

pimpinan P3M USU Bapak Ferry Novliadi,M.Si dan Ibu Rika

Barus,M.Psi.psikolog, terima kasih atas kesempatan yang diberikan

kepada saya untuk melakukan penelitian di institusinya, dan kepada Bang

Fauzi dan Bang Adlin yang telah membantu saya selama proses

pengumpulan data.

3. Ibu Etty Rahmawaty, M.Si selaku dosen pembimbing skripsi yang telah

dengan sangat sabar dan berbaik hati bersedia membimbing penulis hingga

(6)

untuk mengungkapkan rasa syukur penulis atas bimbingan dan bantuan

Ibu selama ini, dan semoga Ibu bisa memaafkan segala kesalahan saya

selama seluruh proses penyelesaian skripsi ini.

4. Orang tua penulis, Dornia Tambun, yang telah sangat sabar menasehati

dan memberikan dorongan selama hidup saya, kelima kakak penulis Kak

Ati, Kak Iyan, Kak Juni, Kak Ani, Kak Manok, juga adik saya Elsye,

terima kasih atas nasehat, bantuan dan dukungan kalian selama ini baik

secara moral maupun materil.

5. Ibu Ika Sari Dewi, S.Psi., psikolog dan Bapak Eka Danta Jaya

Ginting,M.A.,psikolog yang telah meluangkan waktu sebagai dosen

penguji skripsi ini, terima kasih atas bimbingan, saran, dan nasehatnya,

terkhusus kepada Pak Eka yang telah menjadi lebih sebagai sahabat

daripada sebagai dosen bagi penulis.

6. Ibu Liza Marini.M.Psi.,psikolog selaku dosen pembimbing akademik saya

selama saya kuliah di Fakultas Psikologi USU, terima kasih atas

bimbingan, saran, dan dorongan yang Ibu berikan kepada saya.

7. Seluruh staf pengajar di Fakultas Pskologi USU, terima kasih atas segala

didikan, ilmu, dan pengalaman yang penulis dapatkan selama mengikuti

perkuliahan di Fakultas Psikologi USU.

8. Seluruh pegawai di Fakultas Psikologi USU, terutama Pak Aswan, Kak

Defi, Bang Ronal, terima kasih atas bantuannya kepada penulis selama

pengurusan administrasi.

9. Teman-teman angkatan 2007 (Armen, Junias, Seja, Tua, Dier, Princen,

(7)

seluruh angkatan 2007), sahabat enjoy (Johan, Holong, Efron, Jogi,

Edom), Parker & Lengther (bang Fitrah, bang Gunawan, pak Iyal, bang

Toni, bang Harri, bang Bima, bang Furqon, bang Endang, Rozi, Edwin,

bang Jono, bang Dani, bang Surya, Rajiv, Bagus, Bobby, Sony, dkk),

teman-teman lama (Daniel, Mei, Ira, Fida, Inggrid, Jendri, Manti, Eva,

Lenny, Magda, Caca, Bernad, Anson, Anes, dkk), dan teman-teman umeks

(Hitler, Siti, Tami, Dede, Wesly, dkk)

10.Seluruh penulis yang namanya tertera dan menjadi referensi dalam skripsi

ini.

11.Seluruh pihak yang tidak dapat penulis sebutkan satu persatu yang telah

membantu penulis dalam menyelesaikan skripsi ini.

Penulis menyadari bahwa penelitian ini masih memiliki banyak kekurangan

dan jauh dari sempurna. Oleh karena itu, penulis mengharapkan kritik, saran, dan

masukan yang membangun sehingga penelitian ini bisa menjadi lebih baik lagi di

masa depan. Akhir kata, penulis berharap semoga skripsi ini bermanfaat.

Medan, Februari 2014

(8)

DAFTAR ISI

LEMBAR PERNYATAAN.... ... i

ABSTRAK... ... ii

KATA PENGANTAR. ... iv

DAFTAR ISI ... vi

DAFTAR TABEL ... vii

DAFTAR RUMUS ... viii

DAFTAR LAMPIRAN ... ix

BAB I. PENDAHULUAN A. Latar Belakang Masalah ... 1

B. Identifikasi Masalah ... 7

C. Rumusan Masalah ... 7

D. Tujuan Penelitian ... 8

E. Manfaat Penelitian ... 8

BAB II. LANDASAN TEORI A. Classical Test Theory (CTT) ... 9

1. Pengertian CTT ... 9

2. Asumsi-asumsi dalam CTT ... 10

B. Analisis Karakteristik Psikometri ... 12

1. Indeks Kesukaran Aitem ... 13

(9)

b. Analisis Indeks Kesukaran Aitem ... 13

2. Indeks Diskriminasi Aitem ... 14

a. Pengertian Indeks Diskriminasi Aitem ... 14

b. Analisis Indeks Diskriminasi Aitem ... 15

3. Reliabilitas Alat Ukur ... 18

a. Pengertian Reliabilitas ... 18

b. Metode Estimasi Reliabilitas ... 20

c. Reliabilitas Skor Komposit ... 26

d. Standar Error Pengukuran dan Interpretasi Koefisien Reliabilitas ... 27

e. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas ... 29

4. Validitas ... 30

a. Pengertian Validitas ... 30

b. Sumber-sumber Bukti Validitas ... 31

c. Interpretasi Koefisien Validitas ... 37

C. Analisis Karakteristik Psikometri Alat Ukur ... 38

D. Culture Fair Intelligence Test (CFIT) Skala 3B ... 39

1. Sejarah dan Perkembangan CFIT ... 39

BAB III. METODE PENELITIAN A. Jenis Penelitian ... 42

B. Subjek Penelitian ... 42

C. Data yang Digunakan ... 43

(10)

1. Persiapan Izin Pengambilan Data ... 43

2. Pelaksanaan Penelitian ... 43

E. Program Komputer yang Digunakan ... 45

F. Analisis Data ... 46

BAB IV. Hasil dan Pembahasan A. Hasil ... 49

1. Indeks Kesukaran Aitem ... 49

2. Indeks Diskriminasi Aitem ... 51

3. Reliabilitas Komposit ... 54

4. Validitas Konstruk ... 54

B. Pembahasan ... 59

BAB V. Kesimpulan dan Saran A. Kesimpulan ... 64

B. Saran ... 65

(11)

DAFTAR TABEL

Tabel 1. Kategori Batasan Nilai p ... 14

Tabel 2. Evaluasi Indeks Diskriminasi Aitem ... 16

Tabel 3. Kategori Nilai Estimasi Koefisien Reliabilitas ... 29

Tabel 4. Perbandingan Ukuran-ukuran GOF... 48

Tabel 5. Hasil Analisis Indeks Kesukaran Aitem pada CFIT Skala 3B ... 50

Tabel 6. Pengelompokan p CFIT Skala 3B ... 51

Tabel 7. Hasil Analisis Indeks Diskriminasi pada CFIT Skala 3B ... 52

Tabel 8. Evaluasi d CFIT Skala 3B ... 53

Tabel 9. Kecocokan Model... 54

Tabel 10. Muatan Faktor ... 55

(12)

DAFTAR RUMUS

Rumus 1. Asumsi 1 CTT ... 10

Rumus 6. Indeks Kesukaran Aitem ... 13

Rumus 7. Indeks Diskriminasi Aitem ... 15

Rumus 8. Indeks Diskriminasi Aitem ... 15

Rumus 9. Indeks Reliabilitas Lord dan Novick ... 19

Rumus 10. Indeks Reliabilitas Osterlind ... 19

Rumus 11. Indeks Reliabilitas Gulliksen ... 20

Rumus 12. Formula Spearman-Brown ... 23

Rumus 13. Formula Koefisien Alpha ... 23

Rumus 14. Formula Kuder-Richardson 20 (KR-20) ... 24

Rumus 15. Formula Kuder-Richardson 21 (KR-21) ... 25

Rumus 16. Formula Rulon ... 25

Rumus 17. Formula Reliabilitas Skor Komposit ... 27

(13)

DAFTAR LAMPIRAN

LAMPIRAN I. Output Lisrel 8.30 ... 67

(14)

ANALISIS KARAKTERISTIK PSIKOMETRI

PADA

(CFIT)

SKALA 3B

Agus Manurung dan Etty Rahmawati

ABSTRAK

Suatu alat tes psikologi harus memiliki kualitas yang baik secara psikometri sehingga proses dan penggunaan hasil pengukurannya dapat dipercaya. Alat tes yang baik diharapkan mampu berfungsi sesuai dengan tujuan disusunnya alat tes tersebut agar diperoleh hasil pengukuran yang objektif dan standard. Oleh karena itu, perlu dilakukan evaluasi terhadap kualitas alat tes yang digunakan sehingga diperoleh alat tes yang valid dan dan hasil pengukuran yang reliabel.Tujuan dari penelitian ini adalah melakukan analaisis karakteristik psikometri terhadap Culture Fair Intelligence Test (CFIT) Skala 3B yang mencakup analisis indeks kesukaran aitem, indeks diskriminasi aitem, reliabilitas, dan validitas konstrak alat tes tersebut. Metode pengumpulan data yang digunakan dalam penelitian ini adalah metode dokumentasi, yaitu dengan menggunakan data yang didokumentasikan oleh P3M Fakultas Psikologi USU dalam menyeleksi calon pegawai. Data yang digunakan berupa lembar jawaban peserta seleksi yang berjumlah 1623 lembar. Pendekatan yang digunakan adalah teori tes klasik. Hasil dari penelitian ini menemukan bahwa dari 50 aitem yang terdapat dalam CFIT Skala 3B terdapat 8 aitem yang memiliki indeks diskriminasi yang jelek, sedangkan 7 aitem memerlukan revisi. Terdapat pula beberapa aitem yang yang urutannya tidak sesuai dengan alur urutan indeks kesukaran pada subtes 2-4. Penelitian ini juga menemukan indeks reliabilitas yang tidak reliabel sebagai tes inteligensi yaitu sebesar 0,769. Selain itu, berdasarkan analisis validitas konstrak dengan analisis faktor konfirmatori, penelitian ini menemukan hanya terdapat 20 aitem yang memiliki muatan faktor standard di atas nilai kritikal dan hanya 14 aitem yang memiliki t-value di atas nilai kritikal, tetapi tidak ada aitem yang memenuhi keduanya untuk disebut valid sebagai bagian dari tes inteligensi.

(15)

PSYCHOMETRIC PROPERTIES ANALYSIS OF

CULTURE FAIR INTELLIGENCE TEST (CFIT)

SCALE 3B

Agus Manurung and Etty Rahmawati

ABSTRACT

A psychological test must have a good quality in psychometric so the process and the use of the result can be reliable. A good psychological test is expected to have function as the purpose of the test is made so we can get an objective and standard result. Hence, we need to evaluate the test quality so we can get a valid test and reliable measure result. The aim of this study is to analyze the psychometric properties of Culture Fair Intelligence Test (CFIT) Scale 3B include item difficulty index, item discrimination index, reliability, and construct validity of the test. This study uses documentation method by using data that documented by P3M Psychology Faculty of USU in applicants selection. The data is the applicants’ answer from 1623 answer sheets. This study uses classical test theory approach. The result of this study finds that from total 50 items in CFIT Scale 3B there are 8 items that have bad discrimination index and 7 items need to be revised. There are also few items that doesn’t fit with the item difficulty’s order in subtest 2-4. This study also finds that reliability index is unreliable as an intelligence test, only 0,769. Furthermore, based on construct validity analysis by confirmatory factor analysis, this study finds that there are only 20 items that have standardize loading factor above critical value and only 14 items that have t-value above critical value, but none of these items have both values above critical to be called valid as part of intelligence test.

(16)

BAB I

PENDAHULUAN

A. Latar Belakang Masalah

Ilmu Psikologi merupakan salah satu cabang ilmu yang berperan untuk

mempelajari perilaku manusia. Untuk mempelajari perilaku manusia ini, para ahli

psikologi melakukan berbagai macam pengukuran terhadap perilaku manusia

tersebut, atau dengan kata lain dilakukan tes psikologi. Dibanding dengan

negara-negara maju di Eropa maupun Amerika Serikat, ilmu Psikologi termasuk cabang

ilmu yang baru di Indonesia tetapi tes psikologi sudah sangat umum dan sering

digunakan untuk berbagai tujuan dalam berbagai bidang di Indonesia, khususnya

bidang pendidikan dan pekerjaan.

Jika dilihat dari bagaimana perkembangan dunia pendidikan dan dunia

kerja sekarang ini, tes psikologi merupakan sesuatu yang sangat dibutuhkan untuk

melihat apakah seseorang sesuai untuk pendidikan tertentu atau jenis pekerjaan

tertentu. Contohnya di bidang pendidikan, tes psikologi digunakan untuk

menentukan seorang siswa masuk ke jurusan tertentu, misalnya jurusan ilmu

pengetahuan alam dan ilmu pengetahuan sosial pada tingkat SMA. Sedangkan di

bidang pekerjaan, tes psikologi digunakan untuk mengetahui kemampuan

seseorang dan menentukan apakah seseorang sesuai dengan suatu posisi pekerjaan

tertentu.

Urbina (2004) mengatakan bahwa ada tiga kategori tujuan penggunaan tes

(17)

pengembangan diri. Selain penggunaan tes psikologi untuk tujuan tertentu di

bidang pendidikan dan pekerjaan, masyarakat juga menggunakan tes psikologi

untuk mengetahui kondisi psikologis dan pengembangan diri mereka. Hal ini

dapat dilihat dari semakin banyak dan semakin berkembangnya biro-biro

Psikologi di kota-kota besar di Indonesia yang menunjukkan bahwa masyarakat

modern mulai peduli dengan kondisi psikologis mereka, misalnya bagaimana

kepribadian mereka dan bagaimana kemampuan mereka dalam hal inteligensi.

Banyaknya biro-biro psikologi ini juga bisa menunjukkan bahwa, selain minat

masyarakat untuk mengetahui kondisi psikologis mereka, masyarakat juga

sepertinya mulai mempercayai biro-biro tersebut untuk mengukur aspek-aspek

psikologis masyarakat tersebut.

Menurut Anastasi dan Urbina (2006), tes psikologi merupakan suatu

pengukuran yang objektif dan standar terhadap sampel dari suatu perilaku

tertentu. Ada banyak jenis tes psikologi sehingga fungsi dan tujuannya pun

berbeda-beda. Menurut Kaplan dan Saccuzo (2005), ada dua jenis tes psikologi,

yaitu tes kepribadian (personality test) dan tes kemampuan (ablility test) Tes

inteligensi adalah salah satu tes kemampuan yang sering dan umum digunakan.

Tes inteligensi merupakan tes yang digunakan untuk mengukur

kemampuan kognisi atau inteligensi pada individu yang terlihat dari

perilaku-perilaku yang ditunjukkan (Anastasi dan Urbina, 2006). Oleh karena kegunaan tes

inteligensi untuk mengukur hal-hal tersebut, banyak pihak maupun institusi

seperti sekolah dan perusahaan yang menggunakan tes inteligensi untuk memilih

orang yang tepat untuk jurusan yang tepat di jurusan pendidikan tertentu maupun

(18)

menggunakan tes inteligensi ini supaya orang-orang yang telah dipilih tersebut

menunjukkan performansi yang diharapkan dalam menjalani pendidikan maupun

pekerjaan.

Ada terdapat banyak jenis-jenis tes inteligensi yang digunakan dalam

dunia pendidikan maupun dunia kerja. Salah satu tes inteligensi yang umum dan

sering digunakan adalah Culture Fair Intelligence Test (selanjutnya akan disebut

CFIT). Culture Fair Intelligence Test adalah pengukuran nonverbal terhadap fluid

intelligence yang diciptakan oleh Raymond B. Cattel. Tujuan dari CFIT adalah

untuk mengukur fluid intelligence (kemampuan analisis dalam situasi abstrak)

dalam pola yang sebebas mungkin dari pengaruh budaya (Gregory, 2000). Culture

Fair Intelligence Test dirancang untuk memberikan sebuah estimasi kecerdasan

yang relatif bebas dari pengaruh bahasa dan budaya (Kaplan & Saccuzo, 2005)

Awalnya tes ini dinamakan Culture Free Intelligence Test. Nama tes ini

berubah setelah diketahui bahwa pengaruh budaya tidak bisa dihilangkan

seutuhnya dari tes inteligensi (Gregory, 2000). Salah satu tujuan instrument CFIT

ini adalah untuk meminimalisir pengaruh-pengaruh yang tidak relevan dari

pembelajaran budaya dan sosial sehingga dihasilkan pemisahan yang lebih bersih

terhadap kemampuan alami dari pembelajaran yang spesifik (IPAT dalam

Gregory, 2000). Untuk di Indonesia sendiri, CFIT diadopsi dan dikembangkan

oleh Universitas Indonesia pada tahun 1975. Cattel merancang CFIT untuk

mengurangi pengaruh budaya, perbedaan kecakapan verbal, dan perbedaan tingkat

pendidikan. CFIT dirancang untuk bebas dari bias budaya dan cocok dipakai oleh

beragam populasi, termasuk peserta tes yang tidak dapat berbicara dalam bahasa

(19)

dapat digunakan di Indonesia tanpa adanya perubahan atau adaptasi terhadap

aitem-aitemnya (“Buku Petunjuk Penggunaan CFIT”, 2013).

Tes inteligensi yang sudah sering digunakan umumnya akan lebih dikenali

oleh masyarakat luas. Oleh karena tes inteligensi ini, termasuk CFIT, sudah sangat

sering digunakan, maka orang-orang yang pernah mengikuti tes inteligensi ini

akan memiliki pengalaman untuk menghadapi tes yang sama di masa depan,

dengan kata lain ada proses belajar yang dialami oleh peserta sehingga ini dapat

menimbulkan bias pada hasil tes inteligensi tersebut. Hal ini berakibat banyaknya

pihak-pihak yang berniat untuk memudahkan orang lain untuk menjalani tes

inteligensi tersebut. Mereka banyak membuat bocoran-bocoran tentang bagaimana

cara menghadapi dan menyelesaikan tes tersebut. Ini dapat kita lihat dari

banyaknya tulisan-tulisan di internet yang membahas tentang tes inteligensi

termasuk bagaimana cara menjalani tes tersebut dan bagaimana penilaiannya. Jika

terdapat banyak individu yang mengikuti tes ini telah mengetahui jawaban yang

benar dalam tes ini maka hal ini bisa berakibat pada tingginya indeks kesukaran

aitem yang disebabkan oleh banyaknya individu yang menjawab benar pada

aitem-aitem tersebut dan dapat mengacaukan daya diskriminasi aitem. Dengan

munculnya indeks kesukaran yang tinggi ini dapat mengganggu reliabilitas alat tes

tersebut. Tidak terlewatkan juga CFIT termasuk salah satu tes yang sudah bocor

tersebut, bahkan ada beberapa situs yang melayani penjualan alat tes beserta kunci

jawaban CFIT, seperti yang ditemukan oleh peneliti sendiri.

Seberapa baik proses seleksi yang menggunakan tes psikologi bergantung

pada kualitas alat tes psikologi itu sendiri. Ini merupakan hal yang sangat penting

(20)

keputusan tentang bagaimana kemampuan seseorang. Menurut Azwar (1999),

ketepatan interpretasi tes sangat bergantung pada dua karakteristik utama yang

harus dimiliki oleh setiap tes, yaitu reliabilitas dan validitas. Hasil pengukuran

yang tidak konsisten tidak dapat dipercaya dan apabila digunakan sebagai

informasi dalam pengambilan keputusan maka keputusan tersebut tidak akan

dapat diandalkan. Menurut Azwar (2005), suatu alat tes dikatakan memiliki

validitas yang tinggi jika alat tes tersebut menjalankan fungsi ukurnya, atau

memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran,

sedangkan tes dikatakan memiliki reliabilitas yang tinggi jika skor-tampak tes

tersebut berkorelasi tinggi dengan skor skor-murninya sendiri, atau dapat pula

diartikan sebagai seberapa tingginya korelasi antara skor-tampak pada dua tes

yang paralel. Menurut Kaplan dan Saccuzo (2005), tes psikologi merupakan

sejumlah aitem yang disusun untuk mengukur karakteristik manusia yang

berhubungan dengan perilaku. Aitem-aitem tersebut dirancang sedemikian rupa

berbentuk pertanyaan maupun pernyataan mengenai suatu hal yang akan diukur

atau diungkap. Dari sini bisa dilihat bahwa kualitas dari suatu alat tes ditentukan

oleh kualitas aitem-aitem yang digunakan dalam alat tes tersebut.

Sebagai salah satu alat tes psikologi yang mengukur inteligensi, CFIT

termasuk sering digunakan oleh institusi-institusi Psikologi di Indonesia.

Khususnya di daerah kota Medan, Sumatera Utara, terdapat beberapa institusi

psikologi maupun perusahaan yang menggunakan CFIT sebagai salah satu alat tes

inteligensi. Salah satu institusi tersebut adalah Unit Pelayanan Pusat Pelayanan

Psikologi pada Masyarakat (selanjutnya akan disebut P3M) Fakultas Psikologi

(21)

Fakultas psikologi Universitas Sumatera Utara karena adanya keterbatasan

aksesibilitas dan hal-hal terkait konfidensialitas dari institusi-institusi psikologi

yang lain. CFIT termasuk salah satu alat tes psikologi yang sudah sangat lama

tetapi masih sering digunakan di institusi P3M Fakultas Psikologi Universitas

Sumatera Utara. Bentuk CFIT yang paling sering digunakan adalah skala 3B, ini

terlihat dari banyaknya lembar jawaban CFIT skala 3B yang telah digunakan

dalam beberapa proses seleksi masuk kerja yang diselenggarakan oleh P3M

bekerjasama dengan beberapa institusi atau perusahaan tertentu. Melihat

permasalahan ini, mungkin kita akan mempertanyakan bagaimana sebenarnya

kondisi kualitas CFIT tersebut, tetapi pengujian atau evaluasi (analisis

karakteristik psikometri) yang dilakukan terhadap alat tes ini masih sedikit dan

terbatas di Indonesia. Untuk di Unit P3M Fakultas Psikologi Universitas Sumatera

Utara sendiri bahkan belum pernah dilakukan evaluasi terhadap alat tes CFIT ini,

padahal alat tes psikologi ini masih sering digunakan di Fakultas Psikologi USU.

Jika dilihat dari penggunaan hasil tes psikologi, khususnya tes inteligensi,

yang sangat luas di institusi-institusi seperti sekolah dan perusahaan, sangatlah

penting untuk tetap menggunakan alat tes yang tepat dan benar-benar berkualitas,

yaitu alat tes yang sesuai dengan fungsinya dan hasilnya dapat dipercaya. Oleh

karena itu, untuk memperoleh hasil-hasil yang valid dan reliabel dari suatu tes

psikologi, perlu diadakan evaluasi secara rutin terhadap tes tersebut mengingat

adanya kemungkinan pergeseran maupun perubahan budaya dan perkembangan

informasi yang pesat yang dapat mempengaruhi validitas dan reliabilitas alat tes

(22)

Oleh karena itu, peneliti melakukan penelitian ini dengan menggunakan

analisis karakteristik psikometri pada alat tes CFIT. Penelitian ini bertujuan untuk

mengetahui apakah CFIT ini masih standard, berkualitas, dan tepat untuk

digunakan di masyarakat, sehingga dalam setiap penggunaanya kita mendapatkan

hasil yang benar-benar sesuai dengan tujuan dari disusunnya alat tes ini dan dapat

dipercaya.

B.Identifikasi Masalah

Berdasarkan latar belakang masalah yang telah diuraikan, maka dapat

diidentifikasi masalah yang berhubungan dengan CFIT yaitu:

1. CFIT masih sering digunakan sebagai tes inteligensi oleh P3M Fakultas

Psikologi USU dan belum pernah dievaluasi secara psikometri oleh P3M

Fakultas psikologi USU.

2. CFIT juga telah mulai bocor ke publik sehingga tidak jarang individu

mendapatkan skor CFIT yang mungkin lebih tinggi dari yang sebenarnya.

C. Rumusan Masalah

Masalah dalam penelitian ini dirumuskan dalam bentuk pertanyaan

penelitian sebagai berikut:

1. Seberapa besarkah indeks kesukaran aitem dan indeks diskriminasi aitem pada

CFIT?

2. Bagaimana kondisi nilai indeks reliabilitas pada CFIT?

3. Bagaimana kondisi nilai indeks validitas konstrak pada CFIT?

4. Berdasarkan hasil analisis karakteristik psikometri, apakah CFIT masih tepat

(23)

D. Tujuan Penelitian

Penelitian ini bertujuan untuk melihat bagaimana kondisi kualitas dan

ketepatan CFIT skala 3B, apakah CFIT skala 3B masih berfungsi sesuai dengan

tujuan CFIT disusun berdasarkan kondisi karakteristik psikometri yang dimiliki.

E. Manfaat Penelitian

Penelitian ini diharapkan dapat memberikan manfaat teoritis maupun

praktis, sebagai berikut:

1. Manfaat Teoritis

Penelitian ini diharapkan dapat menambah manfaat keilmuan dalam

bidang psikologi mengenai karakteristik psikometri pada CFIT sehingga dapat

memberikan informasi apakah CFIT masih berfungsi sesuai dengan tujuan

aitem-aitem pada subtes-subtes tersebut disusun.

2. Manfaat Praktis

a) Penelitian ini diharapkan dapat memberikan masukan bagi para akademisi

psikometri untuk merevisi CFIT di masa yang akan datang.

b) Penelitian ini diharapkan dapat menjadi bahan pertimbangan bagi para

praktisi psikologi dalam menggunakan CFIT sebagai alat pengukur

(24)

BAB II

LANDASAN TEORI

Pada dasarnya, ilmu pengukuran psikologis memiliki dua pendekatan,

yaitu pendekatan classical test theory (selanjutnya akan disebut CTT) dan item

response theory (selanjutnya akan disebut IRT). Pendekatan CTT adalah metode

pertama yang dikembangkan untuk pengukuran. Teori-teori CTT mendominasi

pengembangan rumus reliabilitas dan validitas yang dikenal dewasa ini

(Suryabrata, 2005).

A. Classical Test Theory (CTT)

1. Pengertian CTT

Model dari pendekatan teori tes klasik ini disebut juga sebagai model skor

murni (true score model). Pendekatan ini telah berhasil meletakkan dasar-dasar

konsep dalam analisis karakteristik psikometri perangkat ukur psikologi (Crocker

& Algina, 2005). Pendekatan CTT ini juga telah berkontribusi dalam

pengembangan pengukuran psikometri dan pendekatan ini dianggap sebagai

model yang sederhana dan kuat. Fokus utama dari pendekatan ini adalah

informasi pada level tes dan juga menyediakan informasi mengenai aitem-aitem

yang digunakan (Coaley, 2009). Selain itu, teori tes klasik ini juga praktis dan

tidak memerlukan perhitungan yang rumit (Kaplan & Saccuzo, 2005). Oleh

karena itu, peneliti mempertimbangkan menggunakan pendekatan CTT dalam

(25)

2. Asumsi-asumsi dalam CTT

Asumsi-asumsi CTT pada dasarnya merupakan hubungan matematis

antara skor tampak yang disimbolkan dengan huruf X, skor murni yang

dilambangkan dengan huruf T, dan eror pengukuran yang diberi simbol huruf E.

Skor tampak merupakan nilai performansi subjek yang diungkap melalui

pengukuran yang dinyatakan dalam bentuk angka yang merupakan nilai total dari

jawaban subjek terhadap aitem atau pernyataan dalam tes tersebut. Skor murni

menjelaskan bahwa performansi subjek sesungguhnya yang tidak mungkin dapat

diungkap secara langsung oleh tes. Eror pengukuran merupakan besaran eror

subjek dalam setiap tes yang angkanya juga tidak dapat diketahui dengan pasti

(Azwar, 2005).

Pendekatan CTT terdiri dari asumsi-asumsi yang berkaitan dengan skor

tampak, skor murni dan komponen eror pengukuran. Allen & Yen (dalam Azwar,

2005) menjabarkan asumsi-asumsi hubungan antara skor tampak, eror pengukuran

dan skor murni sebagai berikut:

Asumsi 1: X = T + E (1)

Asumsi ini didasarkan pada model Spearman yang menyatakan bahwa

setiap skor tes menggambarkan gabungan dari skor murni dan komponen eror

(Crocker & Algina, 2005). X merupakan jumlah T dan E, sehingga besar X akan

tergantung oleh besarnya E pengukuran, sedangkan besarnya T subjek pada setiap

pengukuran yang sama diasumsikan selalu tetap. Jadi dapat disimpulkan bahwa

skor yang diperoleh dari suatu pengukuran umumnya tidak menunjukkan keadaan

(26)

Asumsi 2: ε(X) = T (2) Asumsi ini menyatakan bahwa T sama dengan nilai harapan dari X-nya

yang dilambangkan dengan ε(X). Jadi, T merupakan harga rata-rata dari distribusi teoretik X apabila orang yang sama dikenai tes yang sama berulangkali dengan

asumsi pengulangan tes itu dilakukan tidak terbatas banyaknya dan setiap

pengulangan tes adalah independen satu sama lain.

Asumsi 3: = 0 (3)

Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes,

distribusi E pengukuran dan distribusi T tidak berkorelasi satu sama lain.

Implikasinya, skor murni yang tinggi tidak selalu berarti mengandung eror yang

selalu positif ataupun selalu negatif atau mempunyai E lebih tinggi dibanding

subjek yang T-nya rendah.

Asumsi 4: = 0 (4)

Asumsi ini menyatakan bahwa eror pada dua tes ( yang dimaksud untuk

mengukur hal yang sama) tidak saling berkorelasi. Artinya besarnya E pada suatu

tes tidak tergantung pada E tes lainnya. Asumsi ini akan tidak terpenuhi sekiranya

skor tampak dipengaruhi kondisi testing, seperti misalnya kelelahan, efek latihan,

suasana hati, atau faktor-faktor dari lingkungan (Suryabrata, 2005).

Asumsi 5 : = 0 (5)

Asumsi ini menyatakan bahwa E pada suatu tes tidak berkorelasi dengan T

pada tes lain. E yang dimaksud dalam CTT adalah penyimpangan X dari skor

harapan teoritik yang terjadi secara random atau tidak terjadi secara sistematik.

Jika penyimpangan terjadi secara sistematik maka itu tidaklah dianggap sebagai

(27)

Selain lima asumsi yang telah diuraikan, terdapat dua asumsi lagi yang

dijelaskan oleh Suryabrata (2005), yaitu:

Asumsi 6

Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama

mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan untuk

setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, maka

kedua tes tersebut disebut sebagai tes yang paralel.

Asumsi 7

Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama

mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan

apabila untuk setiap populasi subjek T1 = T2 + C, dengan C sebagai suatu

bilangan konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara

(equivalent test).Dua tes yang setara dapat memiliki varians eror yang berbeda

karena keduanya belum tentu merupakan tes yang paralel, namun dua tes yang

paralel tentu memenuhi syarat sebagai tes yang setara (Azwar, 2005).

B. Analisis Karakteristik Psikometri

Analisis aitem merupakan suatu prosedur untuk meningkatakan validitas

dan reliabilitas suatu alat tes dengan cara memilih aitem-aitem yang baik sesuai

dengan tujuan alat tes (Crocker & Algina, 2005). Menurut Kaplan & Saccuzo

(2005), alat tes yang baik memiliki aitem yang baik. Aitem yang baik dapat dilihat

melalui analisis terhadap beberapa parameter, seperti indeks kesukaran aitem dan

(28)

1. Indeks Kesukaran Aitem

a. Pengertian Indeks Kesukaran Aitem

Indeks kesukaran aitem adalah rasio antara subjek yang menjawab aitem

dengan benar dan total subjek yang menjawab aitem tersebut. Indeks kesukaran

aitem ditentukan oleh seberapa banyak peserta tes berhasil menjawab aitem

dengan benar. Semakin banyak peserta tes menjawab dengan benar, berarti

semakin mudah aitem tersebut dan sebaliknya semakin sedikit peserta menjawab

dengan benar, maka semakin sulit aitem tersebut (Azwar, 2007).

b. Analisis Indeks Kesukaran Aitem

Taraf kesukaran suatu aitem dinyatakan oleh suatu indeks yang dinamakan

indeks kesukaran aitem yang disimbolkan dengan huruf p, dengan rumus :

p = ni / N (6)

Keterangan:

p = Derajat kesukaran aitem

ni = Banyak peserta tes yang menjawab benar

N = Banyak peserta tes yang menjawab aitem

Azwar (2007) menyatakan bahwa taraf kesukaran yang terbaik bergantung

pada tujuan dari tes tersebut. Misalnya, tes prestasi yang bertujuan untuk evaluasi

formatif misalnya, tidak jarang diperlukan aitem-aitem dengan taraf kesukaran

rendah atau aitem-aitem dengan harga p tinggi. Namun untuk tes yang bertujuan

untuk proses seleksi masuk, terlebih dalam tes masuk yang bertujuan untuk proses

pendidikan harus diusahakan tes yang memiliki harga p yang rendah atau aitem

yang sulit, sehingga subjek yang dinyatakan lulus selanjutnya adalah subjek yang

(29)

Tes disusun untuk melihat perbedaan subjek sehingga jika tidak ada

seorang pun yang menjawab pertanyaan dengan benar, dalam artian aitem sangat

susah (p = 0), atau sebaliknya, jika soal sangat gampang sehingga semua dapat

menjawab pertanyaan dengan benar (p= 1) maka tujuan alat tes tidak dapat

dipenuhi (Murphy & Davidshofer, 2003). Gregory (2000) mengkategorikan nilai

p sebagai berikut:

Tabel 1. Kategori Batasan Nilai p

No. P Kategori

1 p < 0,3 Sulit

2 0.3 <p< 0,7 Sedang

3 p > 0,7 Mudah

2. Indeks Diskriminasi Aitem

a. Pengertian Indeks Diskriminasi Aitem

Daya diskriminasi aitem merupakan kemampuan aitem dalam

membedakan antara subjek yang memiliki atribut psikologis yang diukur dengan

subjek yang tidak memiliki atribut psikologis yang diukur (Azwar, 2007). Murphy

dan Davidshofer (2003) mengatakan bahwa aitem yang baik seharusnya mampu

membedakan kelompok subjek yang mampu dan yang tidak mampu mengerjakan

suatu tes dengan baik. Menurut Azwar (2007), secara sederhana dapat dikatakan

bahwa indeks diskriminasi aitem merupakan suatu harga yang menunjukkan

perbedaan proporsi penjawab aitem dengan benar antara kelompok dengan

(30)

b. Analisis Indeks Diskriminasi Aitem

Diskriminasi aitem yang maksimal akan dicapai ketika seluruh subjek

kelompok tinggi dapat menjawab aitem dengan benar dan seluruh subjek

kelompok rendah tidak mampu untuk menjawabnya. Perbedaan proporsi

penjawab aitem dengan benar antara kelompok tinggi dengan kelompok rendah

dapat dirumuskan sebagai berikut :

d = niT / NT – niR / NR (7)

Keterangan:

niT = Jumlah peserta dari kelompok tinggi yang menjawab aitem dengan benar

NT = Jumlah peserta dari kelompok tinggi

niR = Jumlah peserta dari kelompok rendah yang menjawab item dengan benar

NR = Jumlah peserta dari kelompok rendah

Karena ni / N= p, maka dapat juga dirumuskan dengan:

d = pT - pR (8)

Keterangan:

pT = Indeks kesukaran item kelompok tinggi

pR = Indeks kesukaran item kelompok rendah

Secara matematik indeks diskriminasi aitem akan berkisar mulai dari -1

sampai dengan +1. Namun demikian hanya harga d yang bernilai positif saja yang

memiliki arti dalam analisis aitem (Azwar, 2007).Harga d yang berada disekitar 0

menunjukkan bahwa aitem tersebut mempunyai diskriminasi yang rendah

sedangkan harga d yang negatif menunjukkan bahwa aitem tesebut tidak berguna

(31)

Indeks diskriminasi aitem yang ideal adalah yang mendekati angka 1,

semakin besar indeks diskriminasi (semakin mendekati 1) berarti aitem tersebut

mampu membedakan antara subjek yang menguasai materi yang diujikan dengan

yang tidak menguasainya. Semakin kecil diskriminasi aitem (semakin mendekati

0) berarti semakin tidak jelaslah fungsi aitem yang bersangkutan dalam

membedakan mana subjek yang menguasai materi yang diujikan dan subjek yang

tidak tahu apa-apa (Azwar,2007).

Ebel (dalam Azwar, 2007) memberikan suatu panduan dalam evaluasi

[image:31.595.157.466.336.410.2]

indeks diskriminasi aitem, yaitu :

Tabel 2. Evaluasi Indeks Diskriminasi Aitem

d Evaluasi

0,4 atau lebih Bagus sekali

0,3 - 0,39 Lumayan bagus, tidak membutuhkan revisi

0,2 – 0,29 Belum memuaskan, perlu revisi

d < 0,20 Jelek dan harus dibuang

Thorndike (dalam Azwar, 2007) mengatakan bahwa dalam proses seleksi

aitem, aitem-aitem yang memiliki nilai diskriminasi aitem di atas 0,50 akan

langsung dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di

bawah 0,20 dapat langsung dibuang dan dianggap jelek.

Menurut Murphy dan Davidshofer (2003) ada tiga cara statsistik yang

dapat digunakan untuk mengukur indeks diskriminasi aitem, yaitu:

1)Metode kelompok ekstrim

Metode kelompok ekstrim merupakan cara yang mudah untuk mengukur

indeks diskriminasi aitem pada kelompok yang besar. Indeks diskriminasi aitem

dihitung dengan cara membagi kelompok menjadi dua, Upper group yakni

kelompok yang memiliki skor yang tinggi (25-35 % nilai tertinggi didalam

(32)

(25-35 % nilai terendah dalam kelompok). Aitem yang memiliki indeks

diskriminasi yang baik akan dijawab benar oleh upper group dan dijawab salah

oleh lower group.

2)Korelasi aitem-total

Korelasi aitem-total memberikan informasi tentang apakah aitem

mengukur hal yang sama dengan tes. Korelasi aitem-total untuk aitem yang

diskor 1 jika benar dan 0 jika salah sering juga disebut korelasi poin biserial.

Korelasi poin biserial digunakan apabila aitem-aitem dalam tes berbentuk

dikotomi. Nilai positif menunjukkan bahwa aitem dan tes mengukur hal yang

sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki

indeks diskriminasi yang baik sehingga upper group menjawab pertayaan dengan

salah dan lower group menjawab pertanyaan dengan benar.

3)Korelasi inter-aitem

Korelasi inter-aitem digunakan untuk memahami indeks diskriminasi

aitem. Korelasi inter-aitem tidak menjelaskan mengapa beberapa aitem

menunjukkan nilai yang tinggi atau rendah karena sangat jelas bahwa aitem yang

memiliki nilai korelasi aitem total yang positif akan menunjukkan nilai yang

positif juga pada kebanyakan aitemnya. Namun korelasi aitem total tidak dapat

menjelaskan mengapa korelasi aitem total dapat bernilai negatif tetapi hal ini

dapat dijelaskan dengan menggunakan korelasi inter-aitem.

Korelasi inter-aitem dapat membantu dalam memahami mengapa beberapa

aitem gagal dalam membedakan subjek yang memiliki kemampuan dengan subjek

yang tidak memiliki kemampuan, dalam artian upper group menjawab dengan

(33)

Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti,

kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes,

sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem

memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang

disusun untuk mengukur dua atribut yang berbeda.

3. Reliabilitas Alat Ukur

a. Pengertian Reliabilitas

Menurut Oslterlind (2010), reliabilitas mengarah pada ketepatan dalam

pengukuran mental yang ditentukan oleh kekonsistenan dari pengukuran paralel

secara acak dari beberapa pengukuran. Pengertian reliabilitas diterapkan dalam

dua konteks. Pertama, reliabilitas mengungkap ketepatan instrumen pengukuran,

sebagaimana dalam indeks reliabilitas (dikalkulasi sebagai koefisien reliabilitas),

dan kedua, reliabilitas diterapkan dalam antar-subjekal untuk testee, sebagaimana

dispesifikasi dalam standar error pengukuran (SEM). Reliabilitas juga menandai

konsep untuk mengestimasi seberapa baik sampel aitem mewakili keseluruhan

aitem untuk konstruk laten atau konten domain. Semakin reliabel sebuah

pengukuran, semakin kecil error yang diungkap dalam skor dan semakin

terpercaya interpretasi yang dihasilkan.

Reliabilitas bergantung pada konteks penggunaan reliabilitas itu sendiri.

Terdapat banyak perspektif pada reliabilitas, tergantung pada defenisi error yang

digunakan dan defenisi konstruk laten maupun konten domain yang telah

ditentukan sebelumnya.

Menurut Azwar (2005), reliabilitas merupakan terjemahan dari kata

(34)

konsistensi dan sebagainya, namun pada intinya konsep reliabilitas memiliki

makna sejauh mana hasil suatu pengukuran dapat dipercaya. Menurut Anastasi &

Urbina (2006) reliabilitas suatu tes merujuk pada konsistensi skor yang di peroleh

oleh subjek yang sama ketika diberikan tes ulang yang sama atau seperangkat tes

yang ekivalen dengan tes sebelumnya pada kondisi yang berbeda. Suryabrata

(2005) menyatakan bahwa reliabilitas alat ukur menunjukkan sejauh mana hasil

pengukuran dengan alat tersebut dapat dipercaya, yang mana hal ini ditunjukkan

oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat

yang sama atau minimal setara, dalam kondisi yang berbeda. Oleh sebab itu,

konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua

perangkat skor tes, maka rumus reliabilitas selalu dinyatakan dalam bentuk

koefisien korelasi (Azwar, 2005).

Lord dan Novick (dalam Osterlind, 2010), memberikan defenisi reliabilitas

sebagai “reliabilitas sebuah tes didefenisikan sebagai kuadrat korelasi antara skor

tampak dan skor murni”, sebagaimana dalam rumus :

ρ

2

XT (9)

Menurut Osterlind (2010), reliabilitas juga dievaluasi dengan konsistensi

pengukuran ketika pengukuran diulang terhadap subjek atau kelompok dari

sebuah populasi. Semakin konstan pengukuran tersebut dalam

pengukuran-pengukuran yang diulang, maka semakin tinggi reliabilitasnya.

ρ

XT (10)

Gulliksen (dalam Osterlind, 2010) mengatakan bahwa reliabilitas adalah

(35)

adalah antara dua skor-skor tampak atau kumpulan-kumpulan skor. Hal ini

ditunjukkan dalam rumus:

ρ

x1x2 (11)

b. Metode Estimasi Reliabilitas

Reliabilitas alat ukur juga menunjukkan eror pengukuran yang tidak dapat

ditentukan secara pasti, hanya dapat diestimasi (Suryabrata, 2005). Estimasi

reliabilitas dapat dibagi ke dalam tiga bentuk metode, yaitu pendekatan tes ulang,

pendekatan tes paralel, dan pendekatan konsistensi internal (Azwar, 2005 dan

Suryabrata, 2005).

1) Pendekatan tes ulang

Pendekatan ini dilakukan dengan cara menyajikan tes yang sama dua kali

pada suatu kelompok yang sama dalam rentang waktu tertentu, minsalnya dua

minggu (Suryabrata, 2005). Asumsinya adalah suatu tes yang reliabel akan

menghasilkan skor tampak yang relatif sama apabila diberikan dua kali tes dalam

waktu yang berbeda pada sekelompok subjek yang sama (Azwar, 2005).

Pendekatan tes ulang ini dapat dikatakan baik secara teori, namun dalam

prakteknya mengandung kelemahan, yaitu kondisi subjek pada tes kedua tidak

lagi sama dengan kondisi subjek pada tes pertama baik dari proses belajar,

perubahan motivasi, pengalaman, sehingga pendekatan ini lebih baik digunakan

bila objek ukur berupa keterampilan, terutama keterampilan fisik (Suryabrata,

2005). Menurut Azwar (2005), pendekatan tes ulang cocok digunakan hanya bagi

tes yang mengukur aspek psikologis yang relatif stabil dan tidak mudah berubah.

Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah

(36)

2) Pendekatan tes paralel

Pendekatan reliabilitas bentuk paralel dilakukan dengan memberikan dua

bentuk tes yang paralel pada sekelompok subjek, yaitu tes yang memiliki tujuan

ukur yang sama dan isi aitem yang setara secara kualitas maupun kuantitas

(Azwar, 2005). Pendekatan ini disebut juga sebagai alternate form yang

digunakan untuk mengatasi kelemahan pendekatan tes ulang (Kumar, 2009).

Menurut Azwar (2005), dua tes yang paralel hanya ada secara teoritis, tidak

benar-benar paralel secara empirik. Rumus yang dapat digunakan untuk

menentukan reliabilitas tes ulang adalah korelasi Pearson product moment

(Azwar, 2005)

3) Pendekatan konsistensi internal

Pendekatan ini dilakukan dengan memberikan satu bentuk tes dengan

sekali penyajian kepada sekelompok subjek yang bertujuan melihat konsistensi

antar aitem atau antar bagian dalam tes tersebut serta menghindari

masalah-masalah pada pendekatan tes ulang dan paralel. Seperangkat tes diberikan kepada

sekelompok subjek satu kali sehingga diperoleh satu distribusi skor tes dari

kelompok subjek tersebut. Prosedur analisis reliabilitasnya diarahkan pada analisis

terhadap aitem-aitem atau terhadap kelompok-kelompok aitem dalam tes itu

sehingga perlu dilakukan pembelahan tes menjadi beberapa kelompok aitem yang

disebut belahan tes. Setiap cara pembelahan tes sebaiknya mengusahakan agar

antar belahan memiliki jumlah aitem sama banyak, indeks kesukaran seimbang,

isi sebanding, dan tujuan ukur yang sama atau dalam artian pembelahan aitem

memenuhi ciri-ciri paralel (Azwar, 2005). Berikut beberapa cara dalam

(37)

(a). Pembelahan cara random

Membelah tes menjadi dua bagian secara random dapat dilakukan dengan

cara undian sederhana guna menentukan aitem-aitem nomor berapa sajakah yang

dimasukkan menjadi belahan pertama dan yang mana menjadi belahan kedua.

Pembelahan secara random hanya boleh dilakukan bila tes yang akan dibelah

berisi aitem-aitem yang homogen baik dari segi konten maupun segi indeks

kesukaran aitem, namun jika aitem tersebut heterogen dapat juga menggunakan

cara pembelahan ini asalkan aitem tersebut jumlahnya sangat besar (Azwar,

2005).

(b). Pembelahan gasal-genap

Pembelahan gasal-genap dilakukan dengan cara mengelompokkan seluruh

aitem yang bernomor urut gasal menjadi belahan pertama dan seluruh aitem yang

bernomor urut genap dijadikan satu kelompok belahan kedua. Cara pembelahan

ini selain mudah dilakukan juga dapat menghindari kemungkinan terjadinya

pengelompokkan aitem-aitem tertentu ke dalam salah satu belahan saja (Azwar,

2005).

(c). Pembelahan matched-random subtes

Pembelahan dengan cara matched-random subtes ditemukan oleh

Gulikksen tahun 1950 (dalam Azwar, 2005). Sebelum melakukan pembelahan tes

terlebih dahulu harus dihitung indeks kesukaran aitem serta korelasi aitem dengan

skor total tes. Dengan cara ini setiap aitem dalam tes diletakkan pada satu posisi

atau titik tertentu dalam grafik berdasarkan harga indeks kesukaran aitem dan

(38)

Selain beberapa cara pembelahan tes telah diuraikan, reliabilitas

berdasarkan konsistensi internal juga dapat diestimasi dengan beberapa rumus

(Azwar, 2005).

(a). Spearman-Brown

Rumus Spearman-Brown digunakan untuk metode split-half atau belah

dua (Kumar, 2009 dan Crocker & Algina, 2003). Rumus komputasi

Spearman-Brown merupakan rumus koreksi terhadap koefisien korelasi antara dua bagian tes

dan dirumuskan sebagai beikut (Azwar, 2005):

S-B = rxx’= (12)

Keterangan:

rxx’ =Koefisien reliabilitas Spearman-Brown

r1.2 = Koefisien korelasi antara dua belahan

(b). Koefisien Alpha

Cara-cara pembelahan dapat diperluas pemakaiannya untuk membagi tes

menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi reliabilitasnya

dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya sehingga setiap

bagian hanya berisi satu aitem saja. Koefisien Alpha akan lebih baik jika

pembelahan paralel satu sama lain atau setidaknya dapat memenuhi asumsi τ

-equivalent. Rumusan rumus Alpha adalah sebagai berikut (Azwar, 2005):

α = (13)

Keterangan :

= banyaknya belahan tes

(39)

= varians skor tes

Rumus ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap

belahan memiliki aitem yang relatif setara, paralel atau setidaknya memenuhi

asumsi τ-equivalent. Selain itu, aitem-aitem dalam tes haruslah homogen agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya.

(c). Kuder-Richardson 20 (KR-20)

KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua

yang mungkin dilakukan. Rumus ini juga disebut sebagai koefisien α-20. Koefisien ini mencerminkan sejauhmana kesetaraan isi aitem-aitem dalam tes.

Rumusan rumus KR-20 adalah (Azwar, 2005):

(14)

Keterangan :

= banyaknya aitem dalam tes

= varians skor tes

p = proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu banyaknya

subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang

menjawab aitem tersebut.

Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan

membelahan tes sebanyak jumlah aitem agar estimasi yang diperoleh dapat

(40)

(d). Kuder-Richardson 21

Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem,

Hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan KR-21

adalah (Azwar, 2005):

(15)

Keterangan :

= banyaknya aitem dalam tes

= rata-rata p yaitu,

= varians skor tes

Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan

membelahan tes sebanyak jumlah aitem. Indeks kesukaran aitem haruslah setara

satu sama lain agar estimasi reliabilitas mendekati nilai yang sesungguhnya. Jadi,

indeks kesukaran aitem yang sangat bervariasi mengakibatkan estimasi reliabilitas

akan lebih rendah dari pada menggunakan KR-20.

(e). Rulon

Rulon mengusulkan suatu formula komputasi untuk mengestimasi

reliabilitas skor dengan pendekatan belah dua tanpa perlu berasumsi bahwa kedua

belahan tersebut mempunyai sifat t-equivalent sepanjang jumlah aitem pada kedua

belahan adalah sama. Formula Rulon dirumuskan sebagai :

2 x 2

d S

S 1

r ' = − /

xx (16)

(41)

Keterangan :

2 d

S = Varians perbedaan skor kedua belahan

2 x

S = Varians skor tes

d = Perbedaan skor kedua belahan

(c). Reliabilitas Skor Komposit

Ada kalanya skor tes sebagai deskripsi kuantitatif atribut dalam diri subjek

tidak diperoleh langsung dari sekedar penjumlahan skor aitem-aitemnya,

melainkan didapat dari komposisi atau penggabungan dari bebrapa skor. Beberapa

skor tersebut dapat berupa skor dari bagian-bagian tes itu sendiri, yaitu komponen

atau subtesnya, dapat pula berasal dari tes-tes yang berbeda sebagai suatu baterai

instrumen. Dalam hal ini masing-masing komponen atau bagian tes akan

memeberikan bobot yang tersendiri dalam menentukan skor tes (Azwar, 2012).

Bobor relatif suatu komponen ditentukan oleh besarnya sumbangan

komponen tersebut dalam menentukan skor akhir, misalnya suatu komponen yang

berisi lebih banyak aitem akan lebir besar bobotnya. Begitu pula suatu komponen

yang mungkin aitemnya tidak banyak akan tetapi karena mempunyai tingkat

kesukaran yang tinggi akan dapat diberi bobot yang besar. Skor akhir tes seperti

itu merupakan suatu komposit, yaitu penggabungan skor beberapa komponen

setelah melalui prosedur atau penyetaraan skor (Azwar, 2012).

Reliabilitas skor komposit ditentukan oleh reliabilitas skor komponennya.

Banyaknya komponen yang membentuk skor tes akhir tidak terbatas pada dua

atau tiga saja. Estimasi dapat dilakukan terhadap reliabilitas masing-masing

komponen secara terpisah dan bila reliabilitas setiap komponen itu cukup tinggi

(42)

yang tinggi (Azwar, 2012). Bila diinginkan untuk memperoleh estimasi tunggal

terhadap skor komposit, dapat digunakan formula yang disarankan oleh Mosier

(dalam Azwar, 2012), yaitu:

[

]

(

)

[

∑

+

∑

]

− − = jk k j k j j j jj j j j j xx r s s w w s w r s w s w 2

1 ₂ ₂

2 2 2 ' ' r (17) Keterangan :

Wj = bobot relatif komponen j

Wk= bobot relatif komponen k

Sj = deviasi standar komponen j

Sk = deviasi standar komponen k

rjj’ = koefisien reliabilitas tiap komponen

rjk = koefisien relatif antara dua komponen yang berbeda

c. Standar Error Pengukuran dan Interpretasi Koefisien Reliabilitas

Menurut Osterlind (2010), standar error pengukuran (SEM)

mengindikasikan kesenjangan antara skor tampak dan skor murni. Standar error

pengukuran juga didefenisikan sebagai standar deviasi sebuah distribusi dari

keseluruhan skor untuk semua subjek. Karena teori mengasumsikan distribusi

yang setara dan normal untuk semua subjek dalam populasi, standar error

pengukuran bisa dipandang sebagai rata-rata standar deviasi pada keseluruhan

mean skor.

Standar error pengukuran menyediakan informasi mengenai akurasi dari

nilai mean sebagai perwakilan skor murni, sehingga bisa dikatakan bahwa mean

tersebut adalah indikator dari error. Hal ini penting karena mengarah pandangan

(43)

pengukuran sering dimengerti sebagai analogi dari indeks reliabilitas. Indeks

reliabilitas adalah pengukuran yang mengidikasikan kekurangan error, kebalikan

dari SEM. Indeks reliabilitas didefenisikan sebagai korelasi sederhana antara

bentuk-bentuk paralel sebuah tes (Osterlind, 2010).

Standar error pengukuran merupakan fungsi dari reliabilitas (dan

sebaliknya) ketika standar deviasi sebuah tes telah diketahui. Hubungan ini, dalam

CTT, antara standar error pengukuran dan reliabilitas sudah terlihat ketika standar

deviasi tetap konstan pada seluruh rentang skor sebuah tes. Standar deviasi yang

konstan juga terlihat ketika skor ditunjukkan sebagai skor standar dalam unit-unit

standar deviasi (Osterlind, 2010).

Secara teoritik, koefisien reliabilitas berkisar antara 0 sampai 1, namun

secara empirik koefisien reliabilitas tidak pernah mencapai 1. Artinya terdapat

ketidakkonsistenan skor antara dua tes yang paralel yang disebabkan oleh eror

yang mempengaruhi performa subjek dalam mengikuti tes atau perbedaan antara

skor tampak dan skor murni subjek (Crocker & Algina, 2005). Penafsiran

terhadap koefisien reliabilitas dapat dilakukan melalui penafsiran standar eror

pengukuran (SEm), dengan rumusan sebagai berikut:

(18)

Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan

kesalahan yang terjadi akan semakin kecil. Jadi, tidak ada harga mati dalam

koefisien reliabilitas. Tinggi rendahnya koefisien reliabilitas sangat bergantung

(44)

Murphy dan Davidshofer (2003) menjelaskan bahwa makna tinggi atau

rendahnya koefisien reliabilitas tergantung pada tipe dari tes yang dikategorikan

[image:44.595.123.500.174.351.2]

sebagai berikut:

Tabel 3. Kategori Nilai Estimasi Koefisien Reliabilitas

Nilai estimasi reliabilitas

Bentuk Tes Interpretasi

0.95

Tes inteligensi

Eror pengukuran memiliki efek yang sangat rendah

0.90 Tinggi sampai sedang

0.85 Tes prestasi

0.80

0.75 Kelompok tes pilihan ganda Sedang sampai rendah

0.70 Skala

0.65 Rendah

0.60 Tes proyektif

0.55

0.50 Skor murni dan eror pengukuran

seimbang pada skor tes

d. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas

Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara

tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu

instrumen tes, yaitu:

1) Homogenitas Kelompok

Koefisien reliabilitas suatu tes akan dipengaruhi oleh variasi antara skor

murni dan eror kelompok subjek atau skor tampak kelompok subjek. Semakin

besar homogenitas kelompok semakin rendah nilai koefisien reliabilitas suatu tes

dibandingkan dengan kelompok subjek yang heterogen.

2) Batasan Waktu dalam Tes

Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki

indeks reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang

lebih pendek. Hal tersebut dikarenakan performansi subjek pada tes yang lebih

(45)

lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor,

termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut.

3) Panjang Tes

Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya

aitem-aitem yang menyusun tes tersebut. Semakin banyak aitem yang memiliki

kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas tes

tersebut.

4. Validitas

a. Pengertian Validitas

Menurut Osterlind (2010), validitas merupakan inti dari pengujian mental.

Validitas berarti bahwa informasi yang diungkap oleh sebuah tes adalah informasi

yang sesuai, bermakna, dan berguna untuk pengambilan keputusan yang

merupakan tujuan pengukuran mental. Standards Text (dalam Osterlind, 2010)

mendeskripsikan bahwa validitas adalah pertimbangan yang paling fundamental

dalam mengembangkan dan mengevaluasi tes dimana validitas mengarah pada

sejauh mana bukti dan teori mendukung interpretasi skor tes berdasarkan tujuan

penggunaan tes. Garrett (dalam Osterlind, 2010) mengatakan bahwa validitas

suatu tes merupakan tingkat dimana suatu alat tes mengukur apa yang hendak

diukurnya.

Kumar (2009) menyatakan validitas suatu tes mengambarkan ketepatan

alat ukur mengukur apa yang akan diukur dengan membandingkan alat ukur

tersebut dengan standar atau kriteria yang telah ditetapkan. Menurut Azwar

(2005), validitas mempunyai arti sejauhmana ketepatan dan kecermatan suatu alat

(46)

dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan

fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud

dilakukannnya pengukuran tersebut, sehingga pengertian validitas terlihat

berkaitan sangat erat dengan tujuan pengukuran. Suatu alat ukur biasanya hanya

merupakan ukuran yang valid untuk satu tujuan yang spesifik. Pernyataan valid

terhadap suatu pengukuran harus diikuti oleh keterangan yang menunjuk kepada

tujuan awal pengukuran serta kelompok subjek yang mana yang hendak diukur

(Azwar, 2005).

b. Sumber-sumber Bukti Validitas

Bukti-bukti validitas harus terkumpul dari banyak sumber ketika akan

mengevaluasi validitas. Sumber-sumber ini memberikan informasi mengenai

tingkat kepercayaan untuk membuat kesimpulan-kesimpulan berdasarkan skor

dalam situasi tertentu (Osterlind, 2010). Beberapa bukti yang mendukung dalam

mengevaluasi validitas diberikan dalam Standards for Educational and

Psychological Testing/Standards text (American Educational Research

Association, dkk, 1999, dalam Osterlind 2010).

1) Bukti Validitas Berdasarkan Isi Tes

Mengevaluasi bukti untuk kesimpulan yang valid dari skor tes hampir

selalu memasukkan informasi mengenai isi dari suatu pengukuran yang secara

khusus mengarah pada content domain (dalam pengukuran berdasarkan domain)

atau konstruk (dalam model trait tersembunyi). Banyak fungsi mental, seperti IQ

dan proses psikologi lainnya, yang bisa diterangkan sebagai pengukuran konstruk,

trait, atau domain. Ketika menilai konstruk psikologis yang tidak mudah untuk

(47)

tentang inteligensi manusia penuh dengan pemikiran dan teori yang berlainan

tentang apa yang termasuk dan tidak termasuk. Dalam hal ini spesifikasi konstruk

dibutuhkan dalam tujuan yang berbeda. Ketika membangun sebuah instrumen,

seringkali orang yang mengembangkan tes mengkombinasikan deskripsi isi tes

dan jenis proses respon dalam sebuah blueprint tes, dimana blueprint ini bisa

menjadi dokumen yang sangat berguna bagi pengguna tes ketika akan

mengevaluasi validitas berdasarkan isi tes. Menurut Azwar (2005), Validitas isi

menunjukkan sejauhmana aitem-aitem dalam tes mencakup keseluruhan kawasan

isi objek atau ciri atribut yang hendak diukur. Validitas isi ini diestimasi lewat

pengujian terhadap isi tes dengan analisis rasional atau lewat professional

judgement. Dengan kata lain validitas isi sangat tergantung pada penilaian

subjektif subjekal dan tidak melibatkan perhitungan statistik.

2) Bukti Validitas Berdasarkan Proses Respon

Pengujian mental atau proses kognitif digunakan untuk mengungkap

respon terhadap stimulus pengukuran adalah sumber lain untuk bukti validitas.

Beberapa metode berdasarkan variabel-variabel laten dan proses kausal sebuah

konstruk mungkin memasukkan analisis variabel laten, structural equation

modeling (SEM), Hierarchical linear modeling(HLM), dan beberapa

meta-analisis. Metode-metode ini juga bisa mengungkap informasi penting mengenai

proses respon subjek.

3) Bukti Validitas Berdasarkan Struktur Internal

Struktur internal tes sangat berhubungan dengan pembuatan kesimpulan

yang sesuai dan terpercaya mengenai konstruk yang sedang diukur. Ada beberapa

(48)

tetapi tidak ada satu metode pun yang dianggap terbaik secara umum. Kesesuaian

metode yang digunakan tergantung pada konteks dimana tes dikembangkan,

bagaimana tes tersebut digunakan dan keputusan apa yang ingin diinformasikan.

Beberapa cara yang relevan untuk mempelajari pengukuran struktur internal

sebagai berikut :Analisis faktor, analisis kluster, analisis komponen prinsipal,

konfirmasi teori psikologi: faktor analisis konfirmatori, multitrait-multimethod

matrix, teknik estimasi parameter kemampuan (IRT), strategi-strategi yang

melibatkan teori kemampuan-generalisasi.

Model faktor umum (common factor model) adalah teori satu faktor dari

Charles Spearman mengenai sebuah tes berisi aitem-aitem yang umum dan

memiliki pengaruh yang unik. Dalam situasi praktis untuk validasi tes, model

faktor umum diukur dengan menggunakan analisis faktor (factor analysis) atau

analisis komponen prinsipal (principal component analysis, PCA). Inti prosedur

ini adalah untuk mengurangi varians total diantara aitem-aitem dalam sebuah

matriks kovarians sehingga jumlahnya bisa diestimasi.

Menurut Azwar (2012), analisis faktor merupakan metode statistik yang

berisi kumpulan prosedur matematik yang kompleks dalam pengembangan alat

ukur untuk menganalisis adanya saling hubungan di antara variabel-variabel dan

menjelaskan saling hubungan tersebut dalam bentuk kelompok variabel yang

terbatas yang disebut faktor. Oleh karena validitas ini ditegakkan melalui prosedur

analisis faktor maka disebut sebagai validitas faktorial. Menurut Field (2009),

analisis faktor digunakan untuk melihat hubungan atau korelasi antara

(49)

Sebuah faktor adalah kombinasi aitem-aitem tes yang diyakini sebagai

suatu kumpulan. Aitem-aitem yang berhubungan membentuk sebagian dari

konstruk dan dikelompokkan bersama, aitem-aitem yang tidak berhubungan tidak

membentuk bagian dari konstruk dan harus dikeluarkan dari kelompoknya

(Munro, dalam Azwar, 2012).

Analisis faktor memiliki dua jenis prosedur yang dilandasi oleh dasar

pemikiran yang agak berbeda, yaitu analisis faktor eksploratori (exploratory

factor analysis, EFA) dan analisis faktor konfirmatori (confirmatory factor

analysis, CFA). Prosedur faktor analisis eksploratori membantu pengembang tes

dalam mengenali dan mengidentifikasi berbagai faktor yang membentuk suatu

konstruk dengan cara menemukan varians skor terbesar dengan jumlah faktor

yang paling sedikit yang dinyatakan dalam bentuk eigenvalue > 1,0 (Azwar,

2012). Prosedur analisis faktor konfirmatori biasanya akan menindaklanjuti hasil

EFA dengan menyertakan dasar teori yang melandasi bangunan tes tersebut agar

dapat menguji validitas konstruknya lebih lanjut. Jadi, CFA menguji sejauhmana

model statistik yang dipakai sesuai dengan data empirik (Waltz dkk., dalam

Azwar, 2012). Analisis faktor konfirmatori hampir selalu digunakan dalam proses

pengembangan instrument untuk menguji struktur laten suatu tes, dalam hal ini

CFA digunakan untuk memverifikasi banyaknya dimensi yang mendasari

bangunan suatu tes dan pola hubungan antara aitem dengan faktor (factor loading

atau yang disebut muatan faktor)(Brown, dalam Azwar, 2012).

Pada prosedur analisis faktor, tes yang dipengaruhi oleh faktor-faktor

tertentu disebut sebagai tes yang memiliki muatan faktor (factor loading) yang

(50)

koefisien korelasi. Bila faktor-faktor tidak berkorelasi satu sama lain maka muatan

faktor bukanlah koefisien korelasi akan tetapi seringkali diinterpretasikan

seakan-akan koefisien korelasi (Azwar, 2012).

Analisis struktur faktor dilakukan untuk melihat struktur internal tes

sebagai dukungan terhadap validitas model persamaan structural yang digunakan

dalam konstruksi tes yang bersangkutan (Azwar, 2012). Untuk tujuan tersebut

digunakan prosedur common factor analysis sebagai salahsatu metode pengujian

model, terutama yang mengikuti anggapan bahwa satu konstruk dasar akan

menghasilkan skor tampak (Aneshensel, dalam Azwar 2012). Bila model yang

diajukan ternyata cocok dengan data skor subjek, berarti struktur internal tes

adalah valid (Azwar, 2012)

Metode multitrait-multimatriks secara konseptual mirip dengan analisis

faktor yang merupakan prosedur untuk menganalisis hubungan dan menentukan

pola-pola data. Metode ini bisa menyediakan bukti validitas yang berguna untuk

evaluasi struktur internal. Dalam menggunakan metode ini harus berhati-hati

untuk menghindari kesalahan-kesalahan yang membingungkan informasi dari

metode multitrait-multimethod dengan yang diungkap melalui analisis faktor

(Osterlind, 2010). Campbell dan Fiske (dalam Azwar, 2012) telah

mengembangkan pendekatan ini yang dapat digunakan bilamana terdapat dua trait

atau lebih yang diukur oleh dua macam metode atau lebih. Dasar pemikiran dalam

proses validasi ini adalah bahwa validitas yang baik diperlihatkan oleh adanya

korelasi yang tinggi di antara hasil pengukuran terhadap trait yang sama oleh

(51)