Evaluasi kualitas psikometrik stanford binet intelligence scale form L-M Laboratorium Psikologi Universitas Sanata Dharma - USD Repository

(1)

EVALUASI KUALITAS PSIKOMETRIK STANFORD-BINET INTELLIGENCE SCALE FORM L-M

LABORATORIUM PSIKOLOGI UNIVERSITAS SANATA DHARMA

Skripsi

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Psikologi (S.Psi)

Program Studi Psikologi

Oleh: Veryke Budianto

089114082

PROGRAM STUDI PSIKOLOGI JURUSAN PSIKOLOGI FAKULTAS PSIKOLOGI

UNIVERSITAS SANATA DHARMA YOGYAKARTA

(2)

(3)

(4)

iv

Kupersembahkan skripsi ini kepada:

Tuhan Yesus yang memberi kehidupan

Papa tercinta FX. Budianto

Mama tercinta Aidawati

Kakakku tercinta Verysa Budianto

Adik-adikku tercinta Veryco Budianto dan Veryka Budianto

All successful people men and women are big dreamers. They imagine what their future could be, ideal in every respect, and then…

(5)

v

Learn to enjoy every minute of your life. Be happy now. Don’t wait for something outside of yourself to make you

happy in the future. Think how really precious is the time you have to spend, whether it’s at work or

with your family. Every minute should be enjoyed and savoured.

(6)

(7)

Nightingale-

vii

EVALUATION OF PSYCHOMETRIC PROPERTIES TOWARD STANFORD-BINET INTELLIGENCE SCALE FORM L-M

LABORATORY OF PSYCHOLOGY SANATA DHARMA UNIVERSITY

Veryke Budianto

ABSTRACT

The aim of the research to evaluate the psychometric quality of the Stanford-Binet Intelligence Scale Form L-M. This research aims to evaluate the psychometric quality of the Stanford-Binet Intelligence Scale Form LM. This research will look at reliability, item difficulty, item discrimination power, validity and suitability of the items with age category. The subjects of this research are the children who take the Stanford-Binet Intelligence Scale at the Laboratory of Psychology Faculty of Sanata Dharma in 2006, 2007, and 2008 with a total of 369 subjects. This type of research is descriptive research. Data analysis was performed with SPSS version 15 was used by applying alpha Cronbach coefficient, product-moment Pearson correlation, and logistic regression. Based on the results of data analysis can be concluded that most of items the Stanford-Binet Intelligence Scale Form L-M has a high discriminatory power is above 0.3 and have a less than ideal level of difficulty. Reliability coefficient on the Stanford-Binet Intelligence Scale Form L-M is low. Most of the items on the Stanford Binet Intelligence Scale Form LM is valid._In addition, most of the items on the tests do not correspond to a predetermined age level.

(8)

viii

EVALUASI KUALITAS PSIKOMETRIK STANFORD-BINET INTELLIGENCE SCALE FORM L-M

LABORATORIUM PSIKOLOGI UNIVERSITAS SANATA DHARMA

Veryke Budianto

ABSTRAK

Penelitian ini bertujuan untuk mengevaluasi kualitas psikometrik Stanford-Binet Intelligence Scale Form L-M. Penelitian ini akan melihat reliabilitas, kesukaran item, daya diskriminasi item, validitas item, dan kesesuaian item-item dengan kategori usia. Subyek penelitian ini adalah anak-anak yang mengikuti tes Stanford-Binet Intelligence Scale di Laboratorium Fakultas Psikologi Sanata Dharma pada tahun 2006, 2007, dan 2008 dengan jumlah total 369 subyek..Jenis penelitian ini adalah penelitian deskriptif. Analisis data dilakukan dengan SPSS versi 15 menggunakan koefisien alpha cronbach, korelasi product-moment Pearson, dan regresi logistik. Berdasarkan hasil analisis data dapat disimpulkan bahwa sebagian besar item Stanford-Binet Intelligence Scale Form L-M memiliki daya diskriminasi yang tinggi yaitu diatas 0,3 dan memiliki taraf kesukaran yang kurang ideal.Koefisien reliabilitas pada Stanford-Binet Intelligence Scale Form L-M rendah. Sebagian besar item pada Stanford Binet Intelligence Scale Form L-M dikatakan valid. Selain itu, sebagian besar item pada tes tersebut tidak sesuai dengan tingkat usia yang telah ditentukan.

(9)

ix

(10)

x

KATA PENGANTAR

Puji syukur kepada Tuhan atas berkat dan perlindungan-Nya sehingga

penulis dapat menyelesaikan skripsi dengan judul “Evaluasi Kualitas

PsikometrikStanford-Binet Intelligence Scale Form L-M”.

Penulis menyadari banyak kesulitan yang muncul saat melaksanakan dan

menulis pemelitian ini. Proses penulisan skripsi ini banyak melibatkan kerjasama

dan dukungan dari banyak pihak, oleh sebab itu penulis mengucapkan terima

kasih yang setulus-tulusnya kepada:

1. Bu Dr. Ch Siwi Handayani, S.Psi., M.Si. Selaku Dekan Fakultas Psikologi

Universitas Sanata Dharma Yogyakarta.

2. Pak Y. Agung Santoso, MA. Selaku dosen pembimbing skripsi yang telah

sabar membimbing penulis menyelesaikan skripsi ini.

3. Bu Dra. Lusia Pratidarmanastiti, MS Selaku dosen penguji I yang

memberikan saran dan kritik yang bermanfaat.

4. Bu Agnes Indar Etikawati S.Psi., Psi, M.Si. Selaku dosen penguji II yang

memberikan saran dan kritik yang bermanfaat.

5. Pak Y. Heri Widodo, S.Psi., M.Psi. Selaku Kepala P2TKP yang telah membantu memberi masukan.

6. Seluruh dosen Fakultas Psikologi yang telah membagikan ilmunya kepada

penulis.

7. Seluruh staff Fakultas Psikologi Universitas Sanata Dharma, Mas Gandung,

Pak Gik, Mas Muji, Mas Doni dan Mbak Nanik. Terima kasih atas fasilitas,

(11)

xi

8. Keluargaku tercinta, Papa, Mama, ci Icha, Ryco, dan de Ryka yang terus

memberi dukungan dan doa agar cepat menyelesaikan skripsi ini.

9. Vivi dan Fla yang telah berjuang bersama-sama menyelesaikan skripsi.

10.Stella, Lita, dan Pauline yang selalu menjadi teman berbagi cerita.

11.Sahabat-sahabatku, Susana, Adila, Ella, Deddy, Han2, Pris, Dessy, Sisca,

Yohana, Agung, cie Yenny, terima kasih atas persahabatan dan support-nya. 12.Teman-teman Psikologi angkatan 2008, Noni, Dita, Selly, Dian, Valle,

Bora, Desi, Kak Grace, dll.

13.Adik-adik angkatan 2009 yang telah membantu input data

14.Semua pihak yang tidak dapat disebutkan satu persatu yang telah banyak

membantu dan memberikan dukungan

Semoga Tuhan membalas kebaikan kalian semua. Penulis menyadari

dalam penulisan skripsi ini masih banyak kekurangan. Oleh karena itu penulis

menerima dengan senang hati segala kritik dan saran yang membangun untuk

penyempurnaan skripsi ini. Harapan penulis semoga skirpsi ini dapat bermanfaat

bagi penulis dan pembaca.

Yogyakarta, 21 Januari 2012

(12)

xii

DAFTAR ISI

HALAMAN JUDUL ... i

HALAMAN PERSETUJUAN... ii

HALAMAN PENGESAHAN... iii

HALAMAN MOTTO DAN PERSEMBAHAN... iv

PERNYATAAN KEASLIAN KARYA ... vi

ABSTRAK ... vii

LEMBAR PERNYATAAN PERSETUJUAN……… ix

KATA PENGANTAR ... x

DAFTAR ISI ... xii

DAFTAR TABEL ... xiv

DAFTAR LAMPIRAN ... xv

BAB I PENDAHULUAN ... 1

A. Latar Belakang ... 2

B. Rumusan Masalah ... 4

C. Tujuan Penelitian ... 5

D. Manfaat Penelitian ... 5

BAB II LANDASAN TEORI ... 7

A. Tes Psikologi ... 7

1. Pengertian tes psikologi ... 7

2. Klasifikasi tes dalam psikologi ... 8

3. Syarat tes yang baik ... 12

(13)

xiii

1. Sejarah Tes Binet ... 13

2. Administrasi Tes Binet ... 16

3. Kesesuaian item dengan kriteria usia ... 17

C. Kualitas Psikometrik Tes ... 18

1. Reliabilitas ... 18

2. Validitas ... 22

3. Kualitas item ... 25

D. Kerangka Penelitian ... 28

E. Pertanyaan Penelitian ... 30

BAB III METODE PENELITIAN ... 32

A. Jenis Penelitian ... 32

B. Identifikasi Variabel ... 32

C. Definisi Operasional ... 32

D. Subyek Penelitian ... 34

E. Prosedur Penelitian ... 35

F. Metode Pengumpulan Data ... 35

G.Metode Analisis Data ... 35

BAB IV HASIL PENELITIAN DAN PEMBAHASAN ... 37

A. Orientasi Kancah ... 37

B. Pelaksanaan Penelitian ... 38

C. Deskripsi Subyek Penelitian ... 39

D. Hasil Penelitian ... 40

(14)

xiv

F. Keterbatasan Penelitian ... 96

BAB V PENUTUP... 98

A. Kesimpulan ... 98

B.Saran ... 99

DAFTAR PUSTAKA ... 101

(15)

xv

DAFTAR TABEL

1. Kriteria Evaluasi Indeks Diskriminasi ... 27

2. Deskripsi Subjek Berdasarkan Tingkat Umur... 34

3. Deskripsi Subtes Dalam Stanford-Binet Intelligence Scale Form L-M ... 38

4. Usia Subyek yang Mengikuti Stanford-Binet Intelligence Scale Form L-M . 40 5. Hasil Kualitas Item Tingkat Usia III-6 ... 42

6. Kelompok Kategori Item Tingkat Usia III-6 ... 43

7. Nilai Signifikansi Item ... 44

8. Kesesuaian Item dengan Tingkat Usia III-6... 45

9. Hasil Kualitas Item Tingkat Usia IV ... 46

10. Kelompok Kategori Item Tingkat Usia IV... 46

12. Kesesuaian Item dengan Tingkat Usia IV ... 48

13. Hasil Kualitas Item Tingkat Usia IV-6 ... 49

14. Kelompok Kategori Item Tingkat Usia IV-6 ... 50

16. Kesesuaian Item dengan Tingkat Usia IV-6 ... 51

17. Hasil Kualitas Item Tingkat Usia V ... 53

18. Kelompok Kategori Item Tingkat Usia V ... 53

20. Kesesuaian Item dengan Tingkat Usia V ... 55

21. Hasil Kualitas Item Tingkat Usia VI ... 56

(16)

xvi

24. Kesesuaian Item dengan Tingkat Usia VI ... 58

25. Hasil Kualitas Item Tingkat Usia VII ... 59

26. Kelompok Kategori Item Tingkat Usia VII ... 60

28. Kesesuaian Item dengan Tingkat Usia VII ... 61

29. Hasil Kualitas Item Tingkat Usia VIII ... 63

30. Kelompok Kategori Item Tingkat Usia VIII ... 63

32. Kesesuaian Item dengan Tingkat Usia VIII ... 65

33. Hasil Kualitas Item Tingkat Usia IX ... 66

34. Kelompok Kategori Item Tingkat Usia IX... 66

36. Kesesuaian Item dengan Tingkat Usia IX ... 68

37. Hasil Kualitas Item Tingkat Usia X ... 69

38. Kelompok Kategori Item Tingkat Usia X ... 70

40. Kesesuaian Item dengan Tingkat Usia X ... 71

41. Hasil Kualitas Item Tingkat Usia XI ... 73

42. Kelompok Kategori Item Tingkat Usia XI... 73

44. Kesesuaian Item dengan Tingkat Usia XI ... 75

(17)

xvii

46. Kelompok Kategori Item Tingkat Usia XII ... 76

48. Kesesuaian Item dengan Tingkat Usia XII ... 78

49. Hasil Kualitas Item Tingkat Usia XIII ... 79

50. Kelompok Kategori Item Tingkat Usia XIII ... 80

52. Kesesuaian Item dengan Tingkat Usia XIII ... 81

53. Hasil Kualitas Item Tingkat Usia XIV ... 83

54. Kelompok Kategori Item Tingkat Usia XIV ... 83

56. Kesesuaian Item dengan Tingkat Usia XIV ... 85

57. Hasil Kualitas Item Tingkat Dewasa Rata-rata ... 86

58. Kelompok Kategori Item Tingkat Dewasa Rata-rata ... 87

60. Kesesuaian Item dengan Tingkat Dewasa Rata-rata ... 89

61. Hasil Kualitas Item Tingkat Dewasa Superior I ... 90

62. Kelompok Kategori Item Tingkat Dewasa Superior I ... 91

64. Kesesuaian Item dengan Tingkat Dewasa Superior I ... 92

(18)

1 BAB I

PENDAHULUAN

A. Latar Belakang

Tes inteligensi sering digunakan dengan berbagai tujuan, misalnya

untuk tes seleksi masuk murid baru, penempatan dan klasifikasi siswa di

sekolah menengah, dapat digunakan juga untuk mengelompokkan siswa

dalam program kelas unggulan. Tes inteligensi juga dapat digunakan untuk

seleksi masuk karyawan di suatu perusahaan, penempatan dan klasifikasi

karyawan disuatu organisasi departemen militer dan pemerintah. Tes ini

juga dapat digunakan untuk penilitian di bidang kemampuan kognitif dan

kepribadian (Lewis & Gary-Groth, 2008).

Sampai saat ini telah banyak tes inteligensi yang dibuat oleh para ahli,

mulai dari tes inteligensi untuk anak-anak sampai orang dewasa. Penyajian

tes inteligensinya juga bermacam-macam, terdapat tes yang disajikan

secara individual ataupun kelompok, tes verbal dan performansi. Tes

inteligensi memiliki beberapa bentuk, seperti tes untuk orang dewasa,

seperti WAIS, SPM, APM, CFIT skala 3. Tes untuk anak-anak seperti

WISC, CPM, CFIT skala 1 dan 2, Tes Binet. Tes yang terakhir adalah tes

inteligensi untuk orang berkebutuhan khusus seperti tuna rungu (SON) dan

tuna netra (KIT) (“Pelatihan diagnostika, 1999”).

Tes Binet adalah tes inteligensi pertama yang dipublikasikan pada

tahun 1905 di Paris, Prancis. Tes ini pada awalnya bernama Tes

(19)

2

lancar dengan cara memisahkan pendidikan anak-anak yang kurang cerdas

dengan anak-anak yang cerdas (Suryabrata, 1984). Dalam

perkembangannya terdapat beberapa adaptasi, tetapi yang paling sering

digunakan adalah Stanford-Binet Intelligence Scale.

Stanford-Binet Intelligence Scale telah di revisi sebanyak 5 kali. Revisi pertama sampai ketiga dilakukan oleh Terman, Merrill, dan

Thorndike pada tahun 1916, 1937, 1960, dan 1972. Revisi keempat

dilakukan oleh Thorndike, Hagen, dan Sattler pada tahun 1986. Revisi

yang terakhir dan terbaru dilakukan oleh Roid pada tahun 2003 (Gregory,

1996 dan Lewis & Gary-Groth, 2008). Tes Binet yang digunakan di

Indonesia adalah Stanford-Binet Intelligence Scale Form L-M. Terman melakukan revisi tes ini dengan tujuan untuk memperbaiki item tes dalam

Tes Binet. Item-item dalam Stanford-Binet Intelligence Scale Form L-M

dikelompokkan menurut berbagai level usia, mulai dari usia 2 sampai usia

dewasa superior III. Dalam masing-masing level usia berisi item-item soal

yang memiliki taraf kesukaran yang berbeda (Azwar, 1996).

Terman melakukan revisi pada tahun 1916, revisi ini memperlihatkan

banyak perubahan sehingga tes ini terlihat seperti suatu tes baru. Lebih

dari sepertiga tes tersebut berisi soal-soal baru, sedangkan sisanya terdiri

dari soal-soal lama yang telah direvisi dan diletakkan ulang pada berbagai

tingkat usia yang berbeda. Hasil perubahan soal-soal tes tersebut kemudian

distandardisasi ulang pada sempel baru dari masyarakat Amerika Serikat

(20)

dilakukan secara berkala agar item-item soal tersebut tetap menunjukkan

hasil yang maksimal.

Stanford-Binet Intelligence Scale Form L-M telah diadaptasi ke dalam bahasa Indonesia oleh Fakultas Psikologi Universitas Gadjah Mada pada

tahun 1970 dan masih dipakai sampai sekarang. Keseluruhan soal yang

terdapat di tes ini berjumlah 173 nomor soal dan ada usaha dalam

mengurutkan soal-soal perbendaharaan kata agar sesuai dengan

kebudayaan. Sebagaian kata juga telah diubah dengan kata lain yang

dianggap lebih tepat dengan kondisi daerah setempat, seperti kata gown

diubah menjadi kebaya (Wulan, 1995).

Sejak Stanford-Binet Intelligence Scale digunakan dan terkenal di Amerika, banyak kritik yang telah muncul terhadap tes tersebut, seperti tes

ini dipengaruhi oleh kebudayaan setempat, yang terutama akan sangat

terasa pada tes perbendaharaan kata (Freeman dalam Wulan, 1995) yang

juga dirasakan di Indonesia. Stanford-Binet Intelligence Scale Form L-M

di Indonesia juga masih mempertahankan item-item yang sudah

ketinggalan jaman (Supratikya, komunikasi pribadi, 4 Oktober 2010),

sehingga anak-anak mengalami kebingungan, terutama pada subtes

penalaran verbal seperti pengertian, kata-kata abstrak, analogi yang

berlawanan, perbendaharaan kata, dan sebagainya. Tes yang baik juga

harus valid, jika tes dinyatakan valid maka dapat mengukur apa yang ingin

diukur (Lewis & Gary-Groth, 2008). Menurut Indri Savitri, S.Psi., Kepala

(21)

4

Indonesia (Handayani, 2005), tetapi penulis belum menemukan penelitian

di Indonesia yang melakukan penghitungan kualitas item dan melihat

apakah item-item dalam tes ini masih sesuai dengan kategori usia yang

ditentukan semenjak tahun 1970.

Estimasi reliabilitas harus dilakukan karena ingin melihat konsistensi

atau kepercayaan hasil ukur. Estimasi reliabilitas merupakan pengujian

yang terus menerus selama Stanford-Binet Intelligence Scale Form L-M ini masih digunakan, sedangkan data-data dalam estimasi reliabilitas

diperoleh dari kelompok subjek yang diukur (Azwar, 1999). Dalam hal ini,

subyek yang diukur adalah anak-anak yang melakukan tes Binet di

Fakultas Psikologi Universtitas Sanata Dharma.

Berdasarkan permasalahan yang telah dikemukakan diatas, peneliti

memiliki ketertarikan untuk melakukan estimasi reliabilitas dan ingin

melihat apakah item-item dalam Stanford-Binet Intelligence Scale Form L-M masih sesuai digunakan pada kategori usia yang telah ditentukan.

B. Rumusan Masalah

Permasalahan yang akan diteliti adalah:

1. Bagaimana reliabilitas Stanford-Binet Intelligence Scale Form L-M yang digunakan di Indonesia?

(22)

3. Bagaimana kualitas item Stanford-Binet Intelligence Scale Form L-M yang digunakan di Indonesia?

4. Apakah item-item dalam Stanford-Binet Intelligence Scale Form L-M

masih sesuai digunakan pada kategori usia yang telah ditentukan?

C. Tujuan Penelitian

1. Untuk mengetahui reliabilitas Stanford-Binet Intelligence Scale Form L-M

yang digunakan di Indonesia.

2. Untuk mengetahui validitas Stanford-Binet Intelligence Scale Form L-M

yang digunakan di Indonesia.

3. Untuk mengetahui kualitas item Stanford-Binet Intelligence Scale Form L-M yang digunakan di Indonesia.

4. Untuk melihat kesesuaian item-item dalam Stanford-Binet Intelligence Scale Form L-M pada kategori usia anak yang telah ditentukan.

D. Manfaat Penelitian

1. Manfaat teoritis

(23)

6

2. Manfaat praktis

Agar dapat menjadikan masukan dan pertimbangan bagi Pusat Pelayanan

Tes dan Konsultasi serta Laboratorium Fakultas Psiologi Sanata Dharma

(24)

7

BAB II

LANDASAN TEORI

A. Tes Psikologi

Salah satu bentuk alat ukur adalah tes. Tes merupakan suatu alat untuk

mendapatkan sempel tertentu dari perilaku seseorang (Allen & Yen, 1979).

Tes dapat dilakukan dalam bentuk tulisan, visual atau lisan yang

diadministrasikan untuk mengukur fungsi kognitif dan emosional. Tes

dapat diaplikasikan kepada anak-anak maupun dewasa.

1. Pengertian tes psikologi

Tes merupakan sebuah alat ukur yang terdiri dari sekumpulan

pertanyaan yang harus di jawab, dari hasil jawaban tersebut ditemukan

informasi tentang aspek-aspek psikologis tertentu, seperti: tingkat

inteligensi, bakat, kepribadian, dll. Definisi tes sendiri adalah suatu alat

untuk mendapatkan sampel tertentu dari perilaku seseorang dan

merupakan suatu pengukuran yang objektif serta merupakan standar

pengukuran terhadap sampel perilaku (Allen & Yen, 1979; Anastasi,

1997). Sehingga dapat dikatakan bahwa tes psikologi merupakan bentuk

yang tertata dengan jelas dan memiliki maksud didalamnya, serta dengan

tes psikologi dapat menggambarkan perilaku testee.

Selain pengertian di atas, terdapat juga 5 unsur dalam definisi tes yaitu

prosedur harus baku, skor atau karegori, sempel perilaku, norma atau

(25)

8

dilihat dari prosedur administrasinya sama atau seragam dari tester ke

tester yang lain dan dapat dilihat dari petunjuk yang terdapat di buku

manual atau petunjuk suatu tes. Dalam unsur skor atau kategori

menyatakan bahwa setiap tes menghasilkan satu atau lebih skor, sehingga

suatu tes psikologi menggambarkan performansi seseorang secara singkat

dalam kategori tertentu. Sedangkan pada sampel perilaku, tes

memungkinkan tester untuk memprediksi perilaku lain yang muncul

seperti yang diinginkan atau diprediksikan. Maka dari itu, item-item tes

yang dibuat tidak harus sesuai dengan perilaku yang dinginkan atau

diprediksi. Pada suatu tes harus terdapat norma atau standart, norma

merupakan ringkasan hasil-hasil pada suatu tes yang dikumpulkan dari

sejumlah besar subyek yang mewakili suatu populasi tertentu.

Memprediksikan berbagai macam perilaku yang berada di luar pengetesan

adalah tujuan akhir suatu tes. Sehingga, yang menjadi perhatian utama

pada akhirnya adalah “non-test behavior” yang dapat diprediksikan oleh

suatu tes (Supratiknya, 1998).

Jadi tes psikologi dapat didefinisikan sebagai suatu kumpulan

pertanyaan yang memiliki prosedur yang baku, terstandar atau sistematis

yang digunakan untuk mengamati atau memprediksi perilaku seseorang.

2. Klasifikasi tes dalam psikologi

Tes psikologi dapat dikelompokkan dan dibedakan dalam berbagai

(26)

a. Tes psikologi dibagi menjadi dua kelompok besar, yaitu

(Supratiknya, 1998; Gregory, 1996):

1) Tes yang Mengukur Performansi Maksimal (Maximum

Performance): Tes ini umumnya digunakan untuk mengukur

atau mengungkapkan seberapa baik testee mengerjakan tes

tersebut. Testee didorong untuk berusaha sebaik mungkin

dalam pengetesan. Tes ini dirancang untuk melihat beberapa

hal seperti:

a) Tes Inteligensi: Bertujuan mengambil sampel berbagai jenis

ketrampilan untuk mengestimasi tingkat itelektual umum

individu dalam bentik rasio IQ.

b) Tes Kemampuan (Aptitude Test): Dipakai untuk

memprediksikan keberhasilan individu dalam suatu

pekerjaan, pelatihan, atau pendidikan dan paling sering

digunakan utuk seleksi penerimaan mahasiswa baru.

c) Tes Prestasi: Tes ini bertujuan untuk mengukur taraf

belajar, keberhasilan atau prestasi dalam suatu mata

pelajaran. Menentukan seberapa banyak materi

pembelajaran yang dipahami oleh individu.

2) Tes yang Mengukur Performansi Tipikal (Typical

Performance): Tes ini umumnya digunakan untuk mengetahui

perasaan, pikiran, dan perilaku seseorang dalam menghadapi

(27)

10

atau salah, sehingga testee sulit menebak jawaban terbaik yang

harus diberikan. Tes ini biasanya digunakan untuk mengukur

beberapa hal seperti:

a) Tes Kepribadian: Digunakan untuk mengukur sifat-sifat atau

perilaku-perilaku yang menentukan individualitas seseoang

dan bermanfaat untuk memprediksikan tingkah laku.

b) Inventori Minat: Mengukur prefensi individu dalam aktivitas

atau topik tertentu yang dianggap bermanfaat serta

berpengaruh dalam memilih pekerjaan.

c) Behavior Procedures: Alat yang digunakan untuk mengukur

anteseden dan konsekuen perilaku. Anteseden adalah kondisi

baik yang ada di dalam ataupun di luar individu sebelum

terjadi perilaku tertentu yang menjadi objek pengukuran.

Konsekuen adalah kondisi yang muncul dan mengikuti

terjadinya perilaku tertentu.

b. Menurut cara administrasi dan penyajiannya (Gregory, 1996;

Suryabrata, 1984):

1) Tes Kelompok (Group Test): Umumnya merupakan tes paper

and pencil yang cocok digunakan dalam jumlah subjek yang

banyak dan dilakukan secara serentak.

2) Tes Individual: Alat tes jenis ini harus dilakukan dengan tatap

(28)

3) Kedua kelompok tes ini dapat disajikan secara verbal dan non

verbal. Pada tes verbal, testee menyelesaikan

pertanyaan-pertanyaan yang diberikan dengan menggunakan kata-kata,

seperti memberikan alasan, memberikan hasil perhitungan,

mengatakan keanehan gambar, dll. Sedangkan pada tes non

verbal, testee mengerjakan pertanyaan-pertanyaan yang

diberikan dengan melakukan sesuatu, seperti menyusun balok,

mengatur gambar, menyusun puzzle, dll.

c. Berdasarkan tipe tes yang berhubungan dengan isi dan waktu tes

(Suryabrata, 1984):

1) Speed tes: Pada tes ini mengutamakan kecepatan dan ketepatan

dalam bekerja, sehingga dalam mengerjakan tes waktu akan

dibatasi.

2) Power tes: Pada tes ini mengutamakan kemampuan dalam

bekerja dan pada dasarnya dalam mengerjakan tes waktu tidak

dibatasi.

Berdasarkan kategori-kategori di atas, Stanford-Binet Intelligence

Scale Form L-M merupakan tes yang digolongkan dalam kategori

Maximum Performance Test. Tes ini dilakukan secara individu dan

digunakan untuk mengukur inteligensi seseorang. Cara penyajian tes ini

(29)

12

3. Syarat tes yang baik

Tes psikologi digunakan sebagai alat pembanding atau pengukur.

Maka dari itu, agar dapat memenuhi fungsinya secara baik harus

mengikuti syarat-syarat sebagai berikut:

a. Memiliki tujuan yang jelas, mencakup apa yang hendak diukur,

siapa yang menjadi subjeknya, dan bagaimana skor-skor tes akan

digunakan (Supratiknya, 1998).

b. Setiap tes harus distandarisasikan dengan tujuan agar setiap orang

yang di tes mendapatkan perlakuan yang sama. Hal-hal yang perlu

distandarisasikan adalah materi tes (bahan dan isi tes harus spesifik

dan baku), prosedur administrasi yang baik. Selain itu juga harus

memiliki prosedur penskoran yang baku, termasuk dalam caranya

memberi skor, sistem dalam melakukan skoring, dan terdapat kunci

untuk melakukan skoring serta mudah untuk digunakan

(Suryabrata, 1984; Supratiknya, 1998).

c. Reliabel, yang dimaksud reliabel adalah hasil suatu tes harus dapat

dipercaya, stabil dan memiliki konsistensi yang tinggi (Azwar,

2003).

d. Valid, yaitu suatu tes harus memiliki validitas yang tinggi dan hal

ini dilihat apabila alat tes tersebut memberi hasil ukur yang sesuai

dengan maksud dilaksanakan pengetesan tersebut (Azwar, 2003

(30)

e. Kualitas item, dibutuhkan paling tidak dua kriteria untuk melihat

kualitas item dari suatu tes, yaitu indeks kesukaran item dan indeks

daya diskriminasi item. Kedua kriteria tersebut dihitung secara

terpisah, tetapi pada akhirnya akan menjadi suatu kesatuan yang

menentukan apakah item tersebut baik atau tidak. Setelah itu,

diukur pula efektifitas distraktornya. Ini digunakan untuk melihat

apakah tiap distraktor yang dibuat telah berfungsi sebagaimana

yang seharusnya atau tidak (Supratiknya, 1998).

B. Tes Binet

1. Sejarah Tes Binet

Tes Binet merupakan tes yang diadministrasikan secara individual.

Hanya ada satu orang tester dan seorang testee, kemudian tester

memberikan instruksi untuk tiap item yang diberikan sesuai dengan buku

manual yang tersedia (Friedenberg, 1995). Tes Binet-Simon diterbitkan di

Prancis pada tahun 1905, 1908, dan 1911. Pada awalnya Tes Binet di buat

dengan bentuk yang sangat sederhana, hanya terdiri dari 30 soal yang

disajikan secara urut dan dirancang menggunakan penekanan khusus pada

penilaian (judgment), pemahaman, dan penalaran yang menurut Binet

merupakan komponen penting dalam pembuatan tes inteligensi (Anastasi,

2007). Pada tahun 1908, Binet-Simon memperkenalkan konsep tentang

(31)

14

maka banyak dilakukan revisi maupun adaptasi. Tes ini sering di sebut

sebagai modal dan model dari tes inteligensi (Suryabrata, 1984).

Ada berbagai macam adaptasi yang dilakukan oleh para ahli

diberbagai negara, di Amerika Serikat ada tiga terjemahan dan adaptasi.

Pertama dilakukan oleh H.H. Goddard dari Vineland Training School,

yang kedua dilakukan oleh Frederic Kulhamn dari Universitas Minnesota,

dan yang ketiga dilakukan oleh Lewis Terman dari Stanford University

(Lewis & Gary-Groth, 2008). Dari berbagai macam revisi, yang paling

sering digunakan adalah revisi Stanford-Binet Intelligence Scale.

Revisi kelima merupakan revisi yang paling baru dan dilakukan oleh

Roid pada tahun 2003. Stanford-Binet Intelligence mengalami

perkembangan akibat revisi ini, salah satunya adalah tes ini dapat

dilakukan pada individu yang berumur 2 tahun sampai 85 tahun. Item yang

ada dalam tes ini dibuat dan dirancang untuk memeriksa ketidakmampuan

klinis dan neuropsikologi, bermanfaat dalam penempatan pendidikan

khusus, dapat memeriksa evaluasi kompensasi karyawan, perencanaan

karir, penyeleksian karyawan, konteks forensik, dan bidang terapi lainnya

(Lewis & Gary-Groth, 2008).

Di antara berbagai terjemahan dan adaptasi yang muncul di Amerika

Serikat, yang paling penting dan popular adalah Stanford Binet dibentuk

oleh Terman dan rekan-rekannya di Stanford University (Anastasi, 1997;

Lewis, 1998). Tes ini telah menjadi ukuran yang paling populer dalam

(32)

digunakan diberbagai negara dan dengan konteks yang berbeda-beda. Pada

tahun 1916, Terman tetap menggunakan format awal dengan

menggunakan skala usia dan memasukkan item-item ke dalam sejumlah

level usia kronologi (Lewis & Gary-Groth, 2008; Lewis, 1998). Tetapi dia

melakukan beberapa revisi sehingga banyak sekali perubahan yang terjadi

dan sejumlah soal lama di revisi, dipindah ke tingkat usia yang lain atau

disingkirkan (Anastasi, 1997).

Penelitian dan revisi yang dibuat oleh Terman pada tahun 1916

memiliki kelemahan, antara lain: tidak mewakili populasi Amerika Serikat

pada saat itu dan mengalami kekurangan pengetesan orang dewasa serta

anak-anak (Lewis & Gary-Groth, 2008). Maka pada tahun 1937, Terman

dan Merrill mengembangkan tes ini menjadi dua bentuk paralel, form L

dan M dan memiliki standarisasi yang lebih baik. Di sini Terman

memberikan konsep basal (batas bawah) dan ceiling (batas atas).

Item-item yang dibuat dikelompokkan berdasarkan level setengah tahunan dari

Tahun II sampai Tahun V dan level tahunan dari Tahun VI sampai Tahun

XIV. Selain itu terdapat juga level Dewasa Rata-rata dan tiga level Dewasa

Superior. Tes ini terdiri dari eman subtes pada level Tahun II sampai

Tahun V yang memiliki kredit 1 bulan setiap subtes dan kredit 2 bulan

untuk level Tahun VI sampai XIV. Selain itu terdapat kredit 4, 5, dan 6

bulan untuk ketiga level Dewasa Superior tiap subtesnya (Lewis &

(33)

16

Setelah form L dan M terbentuk dan diadministrasikan kepada 3.184

responden, ternyata tes tersebut memberikan hasil yang tidak begitu baik.

Maka Terman menyatukan kedua form tersebut menjadi satu bentuk yang

tunggal (L-M) dan berisi soal-soal terbaik dari kedua form yang ada.

Selain itu, Terman menambahkan subtes pengganti pada tiap level usia.

Subtes pengganti ini dipakai ketika terjadi kesalahan dalam melakukan

instruksi. Waktu pengetesan dapat di perpendek dengan menggunakan 4

subtes terpilih dari 6 subtes yang disediakan. revisi ketiga ini akhirnya

memberikan hasil yang cukup baik ketika di standardisasi pada tahun 1972

(Lewis & Gary-Groth, 2008).

2. Administrasi Tes Binet

Pengadministrasian Stanford-Binet Intelligence Scale Form L-M

dimulai dari menghitung usia kronologinya. Usia ini di dapat dari tanggal

lahir testee dan tanggal pengetesan. Tes di mulai dan disesuaikan dengan

usia kronologisnya. Jadi, tidak seluruh level tahun Stanford-Binet

Intelligence Scale Form L-M diberikan kepada testee. Testee akan

memperoleh usia basal jika pada level tertentu menjawab semua subtes

dengan benar dan akan memperoleh usia ceiling jika pada level tertentu

menjawab semua subtes dengan salah. Setelah mendapat usia ceiling

pengetesan dihentikan meskipun belum menyelesaikan semua level yang

(34)

Stanford-Binet Intelligence Scale Form L-M memiliki beberapa subtes

seperti: Penalaran Verbal yang digambarkan dengan kosakata,

pemahaman, perbendaharaan kata, dll. Subtes Penalaran Visual yang

disediakan dalam bentuk analisis pola, meniru, melipat dan menggunting

kertas. Terdapat juga subtes Memori Jangka Pendek yang digambarkan

dalam memori untuk kalimat (Anastasi, 1997). Setiap subtes ini diberi skor

dengan memberikan tanda plus (+) dan minus (-) yang pada skor tanda

plus akan diberi kredit sesuai dengan level usia.

3. Kesesuaian item dengan kriteria usia

Jumlah item dalam Stanford-Binet Intelligence Scale Form L-M terdiri

dari 173 item. Namun semua soal ini tidak digunakan secara keseluruhan

dikarenakan seseorang hanya akan memulai tes ini dari usia kronologinya

dan pengetesan akan berhenti jika subjek telah mendapatkan umur ceiling.

Umur ceiling subjek gagal atau mendapat skor minus untuk semua soal

pada tingkat umur tertentu. Tingkat umur di dalam Stanford-Binet

Intelligence Scale Form L-M ini menimbulkan keraguan dalam

penggunaannya. Hal ini terjadi karena pada jaman sekarang ini belum ada

penelitian yang membahas tentang perbaikan Stanford-Binet Intelligence

Scale Form L-M sejak tahun 1970 (Wulan, 1995). Maka dari itu,

kesesuaian item dengan kriteria usia akan dihitung kembali menggunakan

(35)

18

C. Kualitas Psikometrik Tes

Tes psikologi sebagai alat pembanding atau pengukur, agar dapat

menjalankan fungsinya secara baik haruslah memiliki kualitas tertentu

dengan syarat-syarat tes yang baik sebagai berikut: valid, reliabel, dan

memiliki statistik item yang baik (Supratiknya, 1998).

1. Reliabilitas

a. Pengertian Reliabilitas

Reliabilitas memiliki beberapa istilah seperti keterpercayaan,

keterandalan, keajegan, kestabilan, konsistensi dan masih banyak istilah

yang lain (Azwar, 1997 dan Supratiknya, 1998). Suatu tes disebut

reliabel jika skor yang ada memiliki korelasi yang tinggi dengan situasi

yang sebenarnya dan berhubungan dengan ketepatan pengukuran tanpa

menghiraukan apa yang diukur (Allen & Yen, 1979 dan Nunnally,

1978). Dalam menentukan reliabilias digambarkan bahwa tes mengukur

karakteristik yang relatif stabil. Sedangkan unreliabilitas merupakan

hasil dari kesalahan pengukuran yang terjadi karena keadaan internal

yang sementara, seperti motivasi yang rendah, keengganan dalam

mengerjakan atau kondisi eksternal seperti gangguan dari lingkungan

tes yang tidak nyaman (Lewis & Gary-Groth, 2008).

b. Beberapa Pendekatan Estimasi Reliabilitas

Secara lebih terperinci, metode estimasi reliabilitas terdiri atas 3

bentuk, yaitu (Lewis & Gary-Groth, 2008., Supratiknya, 1998.,

(36)

1) Koefisien Test Retest

Dihitung untuk melihat kekonsistensian tes tertentu dari waktu ke

waktu. Untuk melihat konsistensi suatu tes menggunakan metode

ini harus dilakukan pengetesan sebanyak dua kali. Panjang

pendeknya waktu yang ditentukan antara tes yang pertama dengan

yang kedua tergantung dari keyakinan tester tentang kestabilan sifat

yang ingin diukur. Koefisien reliabilitasnya adalah korelasi dari

hasil pengukuran pertama dengan yang kedua. Tetapi, metode ini

memiliki beberapa kelemahan yaitu kurang praktis dan memungkinkan carry over effects.

2) Koefisien Bentuk Paralel

Koefisien paralel adalah tes yang terdiri dari item yang tidak sama

tetapi harus sama secara kualitas dan kuantitasnya. Metode ini

menggunakan dua bentuk dari tes yang paralel yang diberikan pada

subjek yang sama. Kedua bentuk tes tersebut harus diberikan dalam

waktu yang dekat untuk menghindari kelelahan. Koefisien korelasi

kedua bentuk tes tersebut kemudian dihitung. Estimasi reliabilitas

ini ingin menunjukkan sejauh mana kedua bentuk tes yang

berlainan mengukur kemampuan atau sifat yang sama. Tetapi,

metode ini memiliki beberapa kelemahan yaitu sulit mencari alat

ukur yang paralel dan tidak menghilangkan kemungkinan carry

(37)

20

3) Koefisien Konsistensi Internal

Tes ini terdiri dari item yang seluruhnya mengukur kepribadian

atau sifat yang sama dan diambil dari tempat atau wilayah yang

sama. Koefisien konsistensi internal bertujuan untuk melihat

konsistensi antar item atau antar bagian dalam suatu tes. Setelah

skor diperoleh dari satu kelompok, tes tersebut dibagi menjadi

beberapa bagian atau belahan. Bentuk, sifat alat ukur dan

banyaknya belahan menentukan teknik perhitungan koefisien

reliabilitasnya. Metode ini mencakup beberapa metode seperti

Metode Split Half Spearman, Kuder Richardson, dan Koefisien

Alfa Cronbach.

a) Spilt Half Spearman

Setelah dilakukan pengetesan, terdapat beberapa cara untuk

membagi tes tersebut yaitu membagi berdasarkan item dengan

nomor ganjil dan item dengan nomor genap, membagi secara

acak, atau mengurutkan berdasarkan tingkat kesukaran yang

dilihat dari respon subjek, kemudian membagi dalam peringkat

dengan nomor ganjil dan genap. Dalam melakukan pembelahan

digunakan asumsi bahwa dua belahan tersebut memiliki mean

dan varian yang sama. Tes dapat diestimasi dengan

(38)

b) Kuder-Richardson

Salah satu metode yang cukup dikenal selain koefisien alpha

adalah Kuder Richardson. Formula ini berasal dari usaha

Kuder dan Richardson ketika mencari solusi dalam mengatasi

masalah yang diakibatkan ketidakjelasan stategi split half yang

akan menghasilkan estimasi reliabilitas yang terbaik. Maka

diambillah rata-rata koefisien realibilitas yang diperoleh dari

semua model spilt half sebagai estimasi reliabilitas secara

keseluruhan. Kuder dan Richardson yang menciptakan

prosedur jalan pintas untuk mengambil rata-rata dari model

split half.

c) Koefisien Alpha Cronbach

Keuntungan metode ini hanya perlu melakukan satu kali

pengetesan. Apabila kedua belahan tidak paralel, maka

koefisien reliabilitas keseluruhan tesnya di estimasi

menggunakan koefisien α. Koefisien alpha digunakan untuk

mengestimasi reliabilitas tes yang terdiri dari item dengan

bobot berbeda dan diberikan pada respon yang berbeda.

Koefisien α akan memberikan underestimasi kepada koefisien

reliabilitas seluruh tes apabila kedua belahannya tidak

(39)

22

2. Validitas

a. Pengertian Validitas

Validitas didefinisikan sebagai seberapa jauh tes dapat mengukur

apa yang ingin diukur (Lewis & Gary-Groth, 2008). Validitas berasal

dari bahasa Inggris dari kata validity yang berarti keabsahan atau

kebenaran. Dalam konteks alat ukur atau instrumen asesmen, validitas

berarti sejauh mana kecermatan atau ketepatan alat ukur dalam

melakukan fungsi ukurnya. Suatu tes dikatakan memiliki validitas yang

rendah jika tes menghasilkan data yang tidak relevan dengan tujuan

pengukurannya (Azwar, 1997).

b. Beberapa Pendekatan Estimasi Validitas

Secara lebih terperinci, metode estimasi validitas terdiri atas 3

bentuk, yaitu (Supratiknya, 1998., Anastasi, 2007., Azwar, 1997.,

Lewis & Gary-Groth, 2008., dan Allen & Yen, 1979):

1) Validitas Isi (Content Validity)

Sebuah tes dikatakan memiliki validitas isi jika butir-butir tes bersifat

representatif atau menimbulkan respon yang mewakili seluruh

domain dari ketrampilan, pemahaman, dan perilaku yang telah

dirancang untuk diukur dalam suatu tes. Pengujian validitas isi tidak

melalui prosedur pengujian secara statistik, melainkan melalui analisis

secara rasional. Validitas isi muncul dalam bentuk personal

(40)

kemampuan atau pengetahuan. Validitas isi terbagi menjadi dua

kategori yaitu:

a) Validitas Muka (Face Validity)

Validitas muka merupakan validitas yang paling rendah

signifikansinya. Hal ini terjadi karena suatu tes hanya dilihat

berdasarkan format penampilan tes tersebut. Validitas muka

dilakukan dengan meminta seseorang untuk memeriksa tes dan

menyimpulkan apakah tes tersebut mengukur sifat yang ingin

diukur. Sehingga lebih bersifat common sense. Hal ini dapat

terlihat dari apakah tes tersebut valid menurut testee, tenaga

administratif yang menggunakan tes tersebut, dan bagi orang

lain yang tidak terlatih secara teknis.

b) Validitas logis (Logical Validity)

Validitas logis bermanfaat untuk menyusun tes jenis

achievement. Validitas logis digunakan untuk melihat sejauh

mana suatu tes merepresentasikan ciri-ciri atribut yang hendak

diukur. Agar mendapatkan validitas logis yang tinggi suatu tes

harus dirancang sedemikian rupa sehingga benar-benar berisi

item yang relevan (Azwar, 2003).

2) Validitas Konstruk (Construct Validity)

Validitas konstruk merupakan tipe dari validitas yang dapat

(41)

24

konstruk teoritis yang hendak diukur (Allen & Yen, 1979). Ada dua

bentuk validitas konstruk yang penting, yaitu:

a) Validitas Multitrait-Multimethod

Validitas ini digunakan jika dalam suatu tes terdapat dua trait

atau lebih yang diukur oleh dua metode atau lebih. Validitas

ini terbagi menjadi dua jenis, yaitu validitas konvergen dan

validitas diskriminan. Validitas konvergen adalah suatu tes

memiliki korelasi tinggi antara tes-tes yang mengukur sifat

atau trait yang sama dengan metode yang berbeda, dengan kata

lain tes-tes yang berbeda bertemu pada sifat yang sama.

Sedangkan validitas diskriminan adalah suatu tes memiliki

korelasi rendah antara tes-tes yang mengukur sifat atau trait

yang berbeda dengan metode yang sama, dengan kata lain

tes-tes yang berbeda memang membedakan sifat-sifat yang tidak

sama (Allen & Yen, 1979).

b) Validitas Faktorial

Validitas faktorial merupakan bentuk dari validitas konstruk

yang diteliti menggunakan analisis faktor. Analisis faktor

digunakan untuk sarana mengidentifikasi sifat-sifat psikologis

(Anastasi, 2007). Validitas faktorial diteliti dengan melakukan

analisis faktor terhadap suatu tes dan sekaligus pada

serangkaian tes yang diketahui mengukur sejumlah faktor atau

(42)

3) Validitas Kriteria (Criterion Validity)

Validitas kriteria adalah suatu prosedur yang berupa skor tes

sekelompok orang yang kemudian dibandingkan dengan peringkat,

klasifikasi, dll. Kriteria adalah variabel perilaku tertentu yang akan

diprediksi dengan menggunakan skor-skor tes tersebut. Prosedur

validitas kriteria terdiri dari dua macam, yaitu validitas prediktif

dan validitas konkuren (Azwar, 1997).

Validitas konkuren digunakan jika skor tes dan skor kriteria

diperoleh dalam waktu yang sama. Validitas konkuren

dilaksanakan pada orang-orang dengan kelompok tersentu, seperti

kelompok diagnostik atau level sosial-ekonomi. Sedangkan

validitas prediktif digunakan untuk memprediksi tingkah laku di

masa yang akan datang. Validitas prediktif penting digunkan pada

tes bakat atau tes kecerdasan, karena skor pada jenis instrumen ini

sering berkorelasi dengan peringkat, kelas, dan lain-lain (Lewis &

Gary-Groth, 2008).

3. Kualitas Item

Tes yang baik adalah tes yang memiliki kualitas item yang baik.

Item-item tersebut telah melalui proses penyusunan yang sesuai dengan

(43)

26

a. Taraf Kesukaran

Taraf kesukaran item ditunjukkan oleh suatu indeks kesukaran item

yang disimbolkan dengan huruf p. Dalam kebanyakan tujuan

pengetesan, tingkat kesulitan soal dihubungkan dengan persentase

orang-orang yang menjawab dengan benar. Semakin mudah soal yang

dibuat, semakin besar persentasenya. Mengatur item-item soal

merupakan hal yang wajar dalam suatu pengetesan, hal ini membuat

peserta dapat mengerjakan soal yang lebih mudah terdahulu sehingga

tidak membuang waktu yang banyak dalam mengerjakan soal yang

menurut mereka sulit dan dapat meningkatkan kepercayaan diri peserta

dalam mengerjakan tes yang diberikan. Mengukur tingkat kesulitan

item ini bertujuan supaya dalam suatu tes terdiri dari butir soal dengan

tingkat kesulitan yang sesuai (Anastasi, 1997; Supratiknya, 1998).

Semakin besar nilai p maka item tersebut semakin mudah, tetapi

jika nilai p semakin kecil maka item tersebut semakin sulit. Apabila

suatu item sangat sulit sehingga tidak ada seorang pun yang menjawab

dengan benar, maka nilai p adalah 0. Sedangkan, suatu item sangat

mudah dijawab sehingga semua orang dapat menjawab dengan benar,

maka nilai p adalah 1. Jika suatu item memiliki nilai 0 atau 1, semakin

kurang pentinglah informasi tentang peserta tes yang disumbangkan

oleh tes tersebut (Anastasi, 1997; Supratiknya, 1998). Indeks kesukaran

item yang ideal berada dikisaran 0,3 sampai dengan 0,7 (Allen & Yen,

(44)

b. Daya Diskriminasi

Daya diskriminasi adalah kemampuan suatu item tes dapat

mendiskriminasikan antara testee yang berkemampuan tinggi dengan

testee yang berkemampuan rendah dan dilambangkan dengan huruf d.

Suatu item dikatakan memiliki daya diskriminasi yang tinggi apabila

seluruh atau sebagian besar kelompok tinggi menjawab dengan benar

dan tidak dapat dijawab dengan benar oleh kelompok rendah. Indeks

diskriminasi yang ideal adalah yang mendekati angka 1. Semakin

mendekati angka 1 berarti item tersebut semakin mampu membedakan

antara kelompok orang yang menguasai bahan yang diujikan dengan

kelompok orang yang tidak menguasai bahan yang diujikan. Berikut ini

terdapat tabel yang menunjukkan kriteria evaluasi indeks diskriminasi

(Supratiknya, 1998).

Tabel 1.

Kriteria Evaluasi Indeks Diskriminasi

Indeks Diskriminasi Evaluasi

0,40 atau lebih Bagus sekali

0,30 – 0,39 Lumayan baik tetapi masih perlu ditingkatkan

0,20 – 0,29 Belum memuaskan, perlu perbaikan Kurang dari 0,20 Buruk dan harus dibuang

Pengujian daya diskriminasi item juga dapat dilakukan dengan

koefisien korelasi item total yang dikenal dengan parameter daya beda

item (Friedenberg, 1995). Semakin tinggi korelasi positif antara skor

item dengan skor tes secara keseluruhan berarti semakin tinggi daya

bedanya. Sedangkan, koefisien korelasi yang rendah mendekati nol

(45)

28

bedanya tidak baik. Besarnya koefisien korelasi item total dimulai dari

0,00 sampai dengan 1,00 dengan tanda positif atau negatif. Koefisien

korelasi yang mendekati angka 1,00 menunjukkan bahwa daya

diskriminasi item semakin baik (Azwar, 1999).

Kriteria pemilihan item melalui korelasi item total biasanya

menggunakan batasan rix ≥ 0,30. Item yang memiliki nilai rix kurang

dari 0,30 mempunyai daya diskriminasi rendah. Batasan ini merupakan

suatu konvensi yang berarti penyusun tes diperbolehkan menentukan

sendiri batasan daya diskriminasi itemnya dengan mempertimbangkan

isi dan tujuan skala yang sedang disusun (Azwar, 1999).

D. Kerangka Penelitian

Peneliti ingin melakukan penelitian kuaitas psikometrik dalam

Stanford-Binet Intelligence Scale Form L-M yang digunakan di Fakultas

Psikologi dengan menghitung kualitas item melalui korelasi item total dan

taraf kesukaran, reliabilitas dengan menggunakan teknik estimasi koefisien

alpha Cronbach, estimasi validitas dengan teknik validitas isi, serta

kesesuaian item dengan kriteria usia menggunakan regresi logistik biner.

Peneliti akan melakukan analisis kuantitatif terhadap item-item

Stanford-Binet Intelligence Scale Form L-M menggunakan daya

diskriminasi item dengan metode pendekatan korelasi item total. Koefisien

korelasi item total akan dihitung menggunakan formula korelasi

(46)

Form L-M diberi skor kontinyu. Indeks daya diskriminasi yang ideal

memiliki korelasi item total bernilai positif dan ≥ 0,3 (Azwar, 1999).

Sedangkan, taraf kesukaran item akan dihitung dengan membagi jumlah

subyek yang menjawab benar dengan jumlah subyek yang menjawab item

tersebut. Indeks kesukaran item yang ideal berada dikisaran 0,3 sampai

dengan 0,7 (Allen & Yen, 1979).

Reliabilitas konsistensi internal dilakukan dengan menggunakan

teknik estimasi koefisien alpha Cronbach. Koefisien reliabilitas akan

dihitung sebanyak dua kali, yaitu sebelum item digugurkan dan sesudah

item digugurkan. Koefisien alpha untuk tes kognitif berkisar ≥ 0,90 – 1,0

(Murphy, 1991) dan koefisien reliabilitas jika item dihapus menurun atau

tetap.

Validitas dilakukan dengan menggunakan teknik validitas isi. Apabila

item tes dianggap mempresentasikan hal yang akan diukur, maka tes

tersebut memiliki validitas isi (Supratiknya, 1998).

Dalam mengetahui kesesuaian item dengan kriteria usia digunakan

regresi logistik. Model Regresi Logistik dirancang untuk melakukan

prediksi keanggotaan suatu kategori (grup) dengan maksud menganalisis

seberapa jauh model yang digunakan mampu memprediksi secara benar

kategori (grup) dari sejumlah individu (Kuncoro, 2003). Dalam penelitian

ini analisis regresi logistik dipakai untuk menjawab apakah item-item di

tiap level usia dalam Stanford-Binet Intelligence Scale Form L-M mampu

(47)

30

metode analisis regresi yang menggambarkan hubungan antara variabel

respon (dependen) dengan satu atau lebih variabel prediktor (independen)

(Hosmer, 1989). Variabel Y (dependen)harus merupakan variable dummy

yang mempunyai dua alternatif. Sedangkan, variabel X (independen)

mempunyai skala data interval atau rasio. Untuk menempatkan item ke

setiap tingkat usia digunakan nilai proporsi respon jawaban yang benar

yaitu 0,50.

E. Pertanyaan Penelitian

1. Bagaimana estimasi reliabilitas dari hasil pengetesan Stanford-Binet

Intelligence Scale Form L-M di Laboratorium Fakultas Psikologi Sanata

Dharma?

2. Bagaimana tingkat kesukaran dari hasil pengetesan Stanford-Binet

Dharma?

3. Bagaimana daya diskriminasi dari hasil pengetesan Stanford-Binet

Dharma?

4. Bagaimana estimasi validitas dari hasil pengetesan Stanford-Binet

(48)

5. Bagaimana kesesuaian item dengan kriteria usia dari hasil pengetesan

Stanford-Binet Intelligence Scale Form L-M di Laboratorium Fakultas

(49)

32 BAB III

METODE PENELITIAN

A. Jenis Penelitian

Jenis penilitian ini adalah penelitian deskriptif kuantitatif. Peneilitan

ini dilakukan dengan menyajikan data, menganalisis, menginterpretasi

data yang telah tersedia dan tidak berusaha untuk mengindentifikasikan

kaitan sebab-akibatnya.

B. Identifikasi Variabel

Berdasarkan pertanyaan penelitian pada bagian sebelumnya, variabel

penelitian dapat dikelompokkan sebagai berikut:

1. Indeks Kesukaran Item

2. Indeks Daya Diskriminasi Item

3. Reliabilitas

4. Validitas

C. Definisi Operasional

Definisi operasional untuk masing-masing variabel adalah sebagai

(50)

1. Indeks Kesukaran Item

Indeks kesukaran item disimbolkan oleh huruf p, penghitungannya

dilakukan dengan membagi banyaknya subjek yang menjawab benar

dengan banyaknya subjek yang menjawab item tersebut.

2. Indeks Daya Diskriminasi Item

Dalam menghitung indeks daya diskriminasi item, ditentukan melalui

korelasi item total yang akan dihitung menggunakan SPSS versi 15.

3. Reliabilitas

Dalam penelitian ini, estimasi reliabilitas yang akan digunakan adalah

estimasi reliabilitas model koefisien alpha. Pada penelitian ini, penghitungan reliabilitas dilakukan tiap tingkat usia dengan menggunakan

SPSS versi 15. Koefisien reliabilitas akan dihitung sebanyak dua kali,

yaitu sebelum item digugurkan dan sesudah item digugurkan. Prosedur

pengguguran item adalah jika koefisien reliabilitas item memiliki nilai

lebih besar dari koefisien reliabilitas per tingkat usia, maka item tersebut

digugurkan dan kemudian dihitung kembali sampai tidak terdapat

koefisien reliabilitas item yang lebih besar dari koefisien reliabilitas per

tingkat usia.

4. Validitas

Dalam penelitian ini, estimasi validitas yang digunakan adalah validitas

isi. Validitas isi muncul dalam bentuk personal judgement. Pengujian validitas isi tidak melalui prosedur pengujian secara statistik, melainkan

(51)

34

D. Subjek Penelitian

Dalam penelitian ini subjek yang diambil yaitu anak-anak yang

mengikuti Stanford-Binet Intelligence Scale Form L-M di Laboratorium Fakultas Psikologi Sanata Dharma pada tahun 2006, 2007, dan 2008

dengan jumlah total subjek 369 orang. Pada tiap tingkat umur, jumlah

subjek berbeda-beda dan diuraikan pada tabel berikut:

Tabel 2.

Deskripsi Subjek Berdasarkan Tingkat Umur

No. Tingkat Umur Jumlah Subjek

E. Prosedur Penelitian

Dalam menjalankan penelitian ini, dilakukan beberapa prosedur antara

(52)

1. Mengurus perijinan untuk meminjam dan menginput data di Laboratorium

Fakultas Psikologi Sanata Dharma.

2. Melakukan proses input data ke dalam Microsoft Excel

3. Melakukan penghitungan kesukaran item dari hasil input data yang didapat

dengan membagi banyaknya subjek yang menjawab benar dengan

banyaknya subjek yang menjawab item tersebut.

4. Melakukan penghitungan daya diskriminasi dari hasil input data yang

didapat dengan menggunakan SPSS versi 15.

5. Melakukan estimasi reliabilitas dari hasil input data yang didapat dengan

menggunakan SPSS versi 15.

6. Melakukan estimasi validitas dari hasil input data yang didapat dengan

menggunakan SPSS versi 15.

7. Melakukan penghitungan kesesuaian item dengan kriteria usia dengan

metode analisis regresi logistik dengan menggunakan SPSS versi 15.

F. Metode Pengumpulan Data

Dalam penelitian ini peneliti mengumpulkan dan memperoleh data

dengan menggunakan metode dokumentasi. Mengumpulkan data yang

sudah tersedia di Laboratorium Fakultas Psikologi Sanata Dharma.

G. Metode Analisis Data

Setelah semua data dikumpulkan dan diperoleh, kemudian dilakukan

(53)

36

dari indeks kesukaran item, indeks daya diskriminasi item, regresi logistik,

melihat estimasi reliabilitas dan validitas Stanford-Binet Intelligence Scale Form L-M.

Untuk menentukan usia yang seharusnya variabel Y berupa dua

respon yakni gagal (dilambangkan dengan nilai 0) dan berhasil (dilambangkan dengan nilai 1). Sedangkan, variabel X adalah usia seluruh subyek. Penghitungan akan dilakukan dengan menggunakan SPSS versi 15. Kemudian, untuk mengetahui usia sebenarnya digunakan penghitungan sebagai berikut:

Keterangan:

= intersep (hasil regresi logistik)

= slope untuk usia

= usia seharusnya

(54)

37

BAB IV

HASIL PENELITIAN DAN PEMBAHASAN

A. Orientasi Kancah

Penelitian ini menggunakan data yang merupakan hasil praktikum

Stanford-Binet Intelligence Scale Form L-M mahasiswa Fakultas Psikologi Universitas Sanata Dharma pada tahun 2006, 2007, dan 2008 di

Laboratorium Fakultas Psikologi Universitas Sanata Dharma. Data yang

digunakan pada penelitian ini diambil dari tahun 2006 sampai 2008 karena

data tersebut merupakan data yang paling baru untuk digunakan sebagai

evaluasi Stanford-Binet Intelligence Scale Form L-M.

Stanford-Binet Intelligence Scale Form L-M terdiri dari 20 tingkat umur dan masing-masing tingkat umur terdiri dari 6 soal kecuali pada

tingkat umur Dewasa Rata-rata terdiri dari 8 soal. Tetapi, pada setiap

tingkat umur terdapat 1 soal pengganti yang hanya digunakan jika terjadi

kesalahan prosedur pada penyajian tes. Setiap soal terdiri dari 1 butir soal,

terkadang 2 butir soal, atau terdapat banyak butir soal dalam satu soal.

Total keseluruhan soal yang tersedia berjumlah 173 soal, dan diuraikan

(55)

38

Tabel 3.

Deskripsi Subtes Dalam Stanford-Binet Intelligence Scale Form L-M.

No. Tingkat Umur Jumlah Soal

B. Pelaksanaan Penelitian

Hal yang dilakukan dalam melaksanakan penelitian adalah:

1. Mengumpulkan bahan materi serta info yang tersedia untuk mengetahui

pentingnya penelitian dilakukan.

2. Mengurus perijinan di Laboratorium Fakultas Psikologi Universitas

Sanata Dharma untuk menggunakan data yang telah tersedia.

3. Mengatur jadwal pengambilan data di Laboratorium Fakultas Psikologi

Universitas Sanata Dharma.

4. Pelaksanaan dilakukan setelah mendapat perijinan dari Laboratorium

(56)

berupa hasil pengetesan oleh mahasiswa Fakultas Psikologi Universitas

Sanata Dharma angkatan 2006 sampai 2008.

5. Melakukan proses pemasukan data dengan menggunakan microsoft

excel, skor dengan tanda (+) diberi nilai 1 dan tanda (-) diberi nilai 0. 6. Data yang digunakan adalah data yang peserta tesnya tidak

menggunakan soal pengganti. Data awal berjumlah 392 hasil tes, 23

hasil tes menggunakan soal pengganti sehingga data yang digunakan

berjumlah 369 hasil tes.

7. Data tersebut kemudian dianalisis dengan SPSS versi 15 untuk

mengetahui kualitas item, reliabilitas, validitas dan regresi logistik.

C. Deskripsi Subyek Penelitian

Subjek penelitian yang digunakan dalam penelitian ini sebanyak 369

orang. Subjek diambil dari seluruh hasil praktikum Stanford-Binet

(57)

40

Tabel 4.

Usia Subyek yang Mengikuti Stanford-Binet Intelligence Scale Form L-M

Usia Jumlah Subyek Tingkat Usia

2 tahun 1 II

D. Hasil Penelitian

1. Tingkat Usia III-6

a. Reliabilitas

Perhitungan reliabilitas pada Stanford-Binet Intelligence

Scale Form L-M menggunakan program SPSS 15 dengan metode

α-Cronbach. Koefisien reliabilitas dihitung sebanyak dua kali,

sebelum dan sesudah item digugurkan. Koefisien reliabilitas

sebelum item digugurkan adalah 0,424 dengan jumlah soal

sebanyak 6 soal. Koefisien reliabilitas sesudah item digugurkan

adalah 0,449 dengan jumlah soal sebanyak 4 soal. Hal ini

menunjukkan bahwa tingkat usia III-6 memiliki reliabilitas yang

kurang baik karena tidak memenuhi kriteria. Suatu tes kognitif

dinyatakan reliabel jika koefisien reliabilitasnya ≥ 0,90.

Pengguguran item disarankan untuk dilakukan karena

(58)

reliabilitas dapat ditingkatkan lagi apabila item-item yang

disarankan untuk diperbaiki telah diperbaiki dengan baik.

b. Kualitas Item

Kualitas item digunakan untuk menentukan baik dan

buruknya item dalam suatu tes. Kualitas item dapat diketahui

dengan melakukan perhitungan kepada indeks kesukaran item,

indeks daya diskriminasi item, dan koefisien reliabilitas. Kualitas

item dibagi menjadi tiga kategori pemilihan item, antara lain:

1) Kategori item yang ideal, terdiri dari:

a) Koefisien reliabilitas jika item dihapus menurun atau tetap.

b) Indeks kesukaran item berada di antara 0,3 – 0,7 (Allen &

Yen, 1979).

c) Indeks daya diskriminasi item ditentukan dengan korelasi

item total. Dalam hal ini, korelasi item totalnya harus

bernilai positif dan ≥ 0,3 (Azwar, 1999).

2) Kategori item yang disarankan untuk diperbaiki, terdiri dari:

Pada item yang diperbaiki, item minimal memiliki dua syarat

untuk kategori item yang ideal dengan syarat-syarat di bawah

ini:

a) Koefisien reliabilitas jika item dihapus menurun atau tetap.

b) Indeks kesukaran item berada sedikit di bawah atau di atas

(59)

42

c) Indeks daya diskriminasi item berada sedikit di bawah 0,3

dengan nilai maksimal 0,25.

3) Kategori item yang disarankan untuk digugurkan, terdiri dari:

a) Item tidak memenuhi minimal dua syarat kategori item

ideal.

b) Item tidak memenuhi syarat untuk kategori item yang

disarankan diperbaiki.

Berdasarkan kategori item yang telah ditentukan di atas, maka

hasil kualitas item tiap soal pada Stanford-Binet Intelligence Scale

Form L-M di tingkat usia IV-6 dapat dilihat pada tabel berikut Tabel 5.

Hasil Kualitas Item Tingkat Usia III-6.

No.

22 0.214 0.442 0.937 Diperbaiki Indeks kesukaran item

24 0.430 0.288 0.997 Diperbaiki

Indeks kesukaran item dan indeks diskriminasi item Berdasarkan hasil kualitas item tingkat usia III-6 di atas,

ditemukan tiga kelompok kategori item yang dapat dilihat pada

(60)

Tabel 6.

Kelompok Kategori Item Tingkat Usia III-6.

No. Kategori Nomor Item

1 Item yang ideal

2 Item yang disarankan untuk diperbaiki

22, 23, 24.

3 Item yang disarankan untuk digugurkan

19, 20, 21.

Berdasarkan tabel di atas, terdapat tiga kategori item yaitu item

yang ideal, item yang disarankan untuk diperbaiki, dan item yang

disarankan untuk digugurkan. Tidak terdapat item yang masuk

dalam kategori item ideal, terdapat 3 item yang disarankan untuk

diperbaiki dan 3 item yang masuk dalam kategori item disarankan

untuk gugur.

Item yang masuk dalam kategori item yang disarankan untuk

diperbaiki mempunyai kualitas psikometrik yang perlu diperbaiki

pada tiap itemnya. Item 22 dan 23 perlu dilakukan perbaikan dalam

taraf kesukaran itemnya. Indeks kesukaran item yang ideal terletak

diantara 0,3 – 0,7 sedangkan indeks kesukaran item pada tingkat

usia III-6 berkisar diatas 0,9. Hal ini menunjukkan bahwa

item-item tersebut masih berada dalam kategori yang mudah untuk

dikerjakan dan diperbaiki dengan mempersulit soal. Selain itu, pada

item 24 perlu dilakukan perbaikan dalam taraf kesukaran item dan

diskriminasi itemnya. Diperbaiki dengan melihat kesesuaian antara

(61)

44

c. Kesesuaian Item dengan Tingkat Usia

Dalam melihat kesesuaian item dengan tingkat usianya

digunakan metode regresi logistik. Tabel berikut menunjukkan

hasil perhitungan pada usia III-6.

Tabel 7.

Nilai Signifikansi Item

No. No. Item B1 S.E Sig.

1 19 1.362 0.520 0.009 2 20 1.258 1.004 0.210 3 21

4 22 17.326 856.733 0.984

5 23 2.626 0.839 0.002 6 24 2.403 1.186 0.043 Berdasarkan hasil perhitungan dengan menggunakan SPSS

versi 15 ditemukan bahwa item 20 dan 22 memiliki nilai

signifikansi diatas 0,05. Maka dapat dikatakan bahwa usia tidak

berkorelasi dengan item-item tersebut. Pada item 23, 19, dan 24

memiliki nilai signifikansi dibawah 0,05, maka usia berkorelasi

dengan item tersebut. Sedangkan, item 21 tidak dapat dihitung

menggunakan regresi logistik dikarenakan tidak memiliki variasi

nilai.

Selain melihat nilai signifikansi item pada tingkat usia III-6,

peneliti juga melihat apakah tiap item masih sesuai dengan tingkat

usia yang ditentukan. Tabel berikut memperlihatkan hasil

(62)

Tabel 8.

Kesesuaian Item dengan Tingkat Usia III-6.

No. Item Konstan B1 Usia Seharusnya Tingkat Usia

19 -2.443 1.362 2,014706 II

20 -0.334 1.258 0,504793 21

22 -68.531 17.326 3,972759 IV

23 -7.358 2.626 2,916615 III

24 -4.428 2.403 1,967969 II

Berdasarkan tabel di atas, diketahui bahwa seluruh item tidak

sesuai dengan tingkat usia III-6. Terdapat 2 item yang seharusnya

berada pada tingkat usia II yaitu item 19, dan 24. Item 23

seharusnya berada pada tingkat usia III. Sedangkan, item 22

seharusnya berada pada tingkat usia IV

Tetapi, penghitungan reliabilitas, kualitas psikometrik, dan

regresi logistik ini memiliki hasil yang kurang stabil karena subyek

yang berada pada tingkat usia III-6 hanya berjumlah 46 subyek.

2. Tingkat Usia IV

a. Reliabilitas

Koefisien reliabilitasnya adalah 0,660 dengan jumlah soal

sebanyak 6 soal. Koefisien reliabilitas yang didapat

memperlihatkan bahwa tingkat usia IV memiliki reliabilitas yang

kurang baik karena tidak memenuhi kriteria. Suatu tes kognitif

dinyatakan reliabel jika koefisien reliabilitasnya ≥ 0,90. Koefisien

reliabilitas pada tingkat usia IV dapat ditingkatkan apabila

(63)

46

b. Kualitas Item

Berdasarkan kategori item yang telah ditentukan, maka hasil

kualitas item tiap soal pada Stanford-Binet Intelligence Scale Form

L-M di tingkat usia IV dapat dilihat pada tabel berikut Tabel 9.

Hasil Kualitas Item Tingkat Usia IV.

No.

28 0.658 0.265 0.991 Diperbaiki

Indeks kesukaran item dan indeks diskriminasi item

Berdasarkan hasil kualitas item tingkat usia IV-6 di atas,

ditemukan tiga kelompok kategori item yang dapat dilihat pada

tabel berikut.

Tabel 10.

Kelompok Kategori Item Tingkat Usia IV.

No. Kategori Nomor Item

1 Item yang ideal

2 Item yang disarankan untuk diperbaiki

25, 26, 27, 28, 29. 30.

3 Item yang disarankan untuk digugurkan

Berdasarkan tabel di atas, terdapat tiga kategori item yaitu item

(64)

disarankan untuk digugurkan. Tidak terdapat item yang masuk

dalam kategori item ideal, sebanyak 6 item masuk dalam kategori

item yang disarankan untuk diperbaiki, dan tidak terdapat item

yang masuk dalam kategori item disarankan untuk digugurkan.

Item yang masuk dalam kategori item yang disarankan untuk

diperbaiki mempunyai kualitas psikometrik yang perlu diperbaiki

pada tiap itemnya. Item 25, 26, 27, 29 dan 30 perlu dilakukan

perbaikan dalam taraf kesukaran itemnya. Indeks kesukaran item

yang ideal terletak diantara 0,3 – 0,7 sedangkan indeks kesukaran

item pada tingkat usia III-6 berkisar diatas 0,9. Hal ini

menunjukkan bahwa item-item tersebut masih berada dalam

kategori yang mudah untuk dikerjakan dan diperbaiki dengan

mempersulit soal. Sedangkan, pada item 28 perlu dilakukan

perbaikan dalam taraf kesukaran item dan diskriminasi itemnya.

Diperbaiki dengan melihat kesesuaian antara item dengan fungsi

tes dan mempersulit soal.

c. Kesesuaian Item dengan Tingkat Usia

Dalam melihat kesesuaian item dengan tingkat usianya

digunakan metode regresi logistik. Tabel berikut menunjukkan