EVALUASI KUALITAS PSIKOMETRIK STANFORD-BINET INTELLIGENCE SCALE FORM L-M
LABORATORIUM PSIKOLOGI UNIVERSITAS SANATA DHARMA
Skripsi
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Psikologi (S.Psi)
Program Studi Psikologi
Oleh: Veryke Budianto
089114082
PROGRAM STUDI PSIKOLOGI JURUSAN PSIKOLOGI FAKULTAS PSIKOLOGI
UNIVERSITAS SANATA DHARMA YOGYAKARTA
iv
Kupersembahkan skripsi ini kepada:
Tuhan Yesus yang memberi kehidupan
Papa tercinta FX. Budianto
Mama tercinta Aidawati
Kakakku tercinta Verysa Budianto
Adik-adikku tercinta Veryco Budianto dan Veryka Budianto
All successful people men and women are big dreamers. They imagine what their future could be, ideal in every respect, and then…
v
Learn to enjoy every minute of your life. Be happy now. Don’t wait for something outside of yourself to make you
happy in the future. Think how really precious is the time you have to spend, whether it’s at work or
with your family. Every minute should be enjoyed and savoured.
Nightingale-
vii
EVALUATION OF PSYCHOMETRIC PROPERTIES TOWARD STANFORD-BINET INTELLIGENCE SCALE FORM L-M
LABORATORY OF PSYCHOLOGY SANATA DHARMA UNIVERSITY
Veryke Budianto
ABSTRACT
The aim of the research to evaluate the psychometric quality of the Stanford-Binet Intelligence Scale Form L-M. This research aims to evaluate the psychometric quality of the Stanford-Binet Intelligence Scale Form LM. This research will look at reliability, item difficulty, item discrimination power, validity and suitability of the items with age category. The subjects of this research are the children who take the Stanford-Binet Intelligence Scale at the Laboratory of Psychology Faculty of Sanata Dharma in 2006, 2007, and 2008 with a total of 369 subjects. This type of research is descriptive research. Data analysis was performed with SPSS version 15 was used by applying alpha Cronbach coefficient, product-moment Pearson correlation, and logistic regression. Based on the results of data analysis can be concluded that most of items the Stanford-Binet Intelligence Scale Form L-M has a high discriminatory power is above 0.3 and have a less than ideal level of difficulty. Reliability coefficient on the Stanford-Binet Intelligence Scale Form L-M is low. Most of the items on the Stanford Binet Intelligence Scale Form LM is valid. In addition, most of the items on the tests do not correspond to a predetermined age level.
viii
EVALUASI KUALITAS PSIKOMETRIK STANFORD-BINET INTELLIGENCE SCALE FORM L-M
LABORATORIUM PSIKOLOGI UNIVERSITAS SANATA DHARMA
Veryke Budianto
ABSTRAK
Penelitian ini bertujuan untuk mengevaluasi kualitas psikometrik Stanford-Binet Intelligence Scale Form L-M. Penelitian ini akan melihat reliabilitas, kesukaran item, daya diskriminasi item, validitas item, dan kesesuaian item-item dengan kategori usia. Subyek penelitian ini adalah anak-anak yang mengikuti tes Stanford-Binet Intelligence Scale di Laboratorium Fakultas Psikologi Sanata Dharma pada tahun 2006, 2007, dan 2008 dengan jumlah total 369 subyek..Jenis penelitian ini adalah penelitian deskriptif. Analisis data dilakukan dengan SPSS versi 15 menggunakan koefisien alpha cronbach, korelasi product-moment Pearson, dan regresi logistik. Berdasarkan hasil analisis data dapat disimpulkan bahwa sebagian besar item Stanford-Binet Intelligence Scale Form L-M memiliki daya diskriminasi yang tinggi yaitu diatas 0,3 dan memiliki taraf kesukaran yang kurang ideal.Koefisien reliabilitas pada Stanford-Binet Intelligence Scale Form L-M rendah. Sebagian besar item pada Stanford Binet Intelligence Scale Form L-M dikatakan valid. Selain itu, sebagian besar item pada tes tersebut tidak sesuai dengan tingkat usia yang telah ditentukan.
ix
x
KATA PENGANTAR
Puji syukur kepada Tuhan atas berkat dan perlindungan-Nya sehingga
penulis dapat menyelesaikan skripsi dengan judul “Evaluasi Kualitas
PsikometrikStanford-Binet Intelligence Scale Form L-M”.
Penulis menyadari banyak kesulitan yang muncul saat melaksanakan dan
menulis pemelitian ini. Proses penulisan skripsi ini banyak melibatkan kerjasama
dan dukungan dari banyak pihak, oleh sebab itu penulis mengucapkan terima
kasih yang setulus-tulusnya kepada:
1. Bu Dr. Ch Siwi Handayani, S.Psi., M.Si. Selaku Dekan Fakultas Psikologi
Universitas Sanata Dharma Yogyakarta.
2. Pak Y. Agung Santoso, MA. Selaku dosen pembimbing skripsi yang telah
sabar membimbing penulis menyelesaikan skripsi ini.
3. Bu Dra. Lusia Pratidarmanastiti, MS Selaku dosen penguji I yang
memberikan saran dan kritik yang bermanfaat.
4. Bu Agnes Indar Etikawati S.Psi., Psi, M.Si. Selaku dosen penguji II yang
memberikan saran dan kritik yang bermanfaat.
5. Pak Y. Heri Widodo, S.Psi., M.Psi. Selaku Kepala P2TKP yang telah membantu memberi masukan.
6. Seluruh dosen Fakultas Psikologi yang telah membagikan ilmunya kepada
penulis.
7. Seluruh staff Fakultas Psikologi Universitas Sanata Dharma, Mas Gandung,
Pak Gik, Mas Muji, Mas Doni dan Mbak Nanik. Terima kasih atas fasilitas,
xi
8. Keluargaku tercinta, Papa, Mama, ci Icha, Ryco, dan de Ryka yang terus
memberi dukungan dan doa agar cepat menyelesaikan skripsi ini.
9. Vivi dan Fla yang telah berjuang bersama-sama menyelesaikan skripsi.
10.Stella, Lita, dan Pauline yang selalu menjadi teman berbagi cerita.
11.Sahabat-sahabatku, Susana, Adila, Ella, Deddy, Han2, Pris, Dessy, Sisca,
Yohana, Agung, cie Yenny, terima kasih atas persahabatan dan support-nya. 12.Teman-teman Psikologi angkatan 2008, Noni, Dita, Selly, Dian, Valle,
Bora, Desi, Kak Grace, dll.
13.Adik-adik angkatan 2009 yang telah membantu input data
14.Semua pihak yang tidak dapat disebutkan satu persatu yang telah banyak
membantu dan memberikan dukungan
Semoga Tuhan membalas kebaikan kalian semua. Penulis menyadari
dalam penulisan skripsi ini masih banyak kekurangan. Oleh karena itu penulis
menerima dengan senang hati segala kritik dan saran yang membangun untuk
penyempurnaan skripsi ini. Harapan penulis semoga skirpsi ini dapat bermanfaat
bagi penulis dan pembaca.
Yogyakarta, 21 Januari 2012
xii
DAFTAR ISI
HALAMAN JUDUL ... i
HALAMAN PERSETUJUAN... ii
HALAMAN PENGESAHAN... iii
HALAMAN MOTTO DAN PERSEMBAHAN... iv
PERNYATAAN KEASLIAN KARYA ... vi
ABSTRAK ... vii
LEMBAR PERNYATAAN PERSETUJUAN……… ix
KATA PENGANTAR ... x
DAFTAR ISI ... xii
DAFTAR TABEL ... xiv
DAFTAR LAMPIRAN ... xv
BAB I PENDAHULUAN ... 1
A. Latar Belakang ... 2
B. Rumusan Masalah ... 4
C. Tujuan Penelitian ... 5
D. Manfaat Penelitian ... 5
BAB II LANDASAN TEORI ... 7
A. Tes Psikologi ... 7
1. Pengertian tes psikologi ... 7
2. Klasifikasi tes dalam psikologi ... 8
3. Syarat tes yang baik ... 12
xiii
1. Sejarah Tes Binet ... 13
2. Administrasi Tes Binet ... 16
3. Kesesuaian item dengan kriteria usia ... 17
C. Kualitas Psikometrik Tes ... 18
1. Reliabilitas ... 18
2. Validitas ... 22
3. Kualitas item ... 25
D. Kerangka Penelitian ... 28
E. Pertanyaan Penelitian ... 30
BAB III METODE PENELITIAN ... 32
A. Jenis Penelitian ... 32
B. Identifikasi Variabel ... 32
C. Definisi Operasional ... 32
D. Subyek Penelitian ... 34
E. Prosedur Penelitian ... 35
F. Metode Pengumpulan Data ... 35
G.Metode Analisis Data ... 35
BAB IV HASIL PENELITIAN DAN PEMBAHASAN ... 37
A. Orientasi Kancah ... 37
B. Pelaksanaan Penelitian ... 38
C. Deskripsi Subyek Penelitian ... 39
D. Hasil Penelitian ... 40
xiv
F. Keterbatasan Penelitian ... 96
BAB V PENUTUP... 98
A. Kesimpulan ... 98
B.Saran ... 99
DAFTAR PUSTAKA ... 101
xv
DAFTAR TABEL
1. Kriteria Evaluasi Indeks Diskriminasi ... 27
2. Deskripsi Subjek Berdasarkan Tingkat Umur... 34
3. Deskripsi Subtes Dalam Stanford-Binet Intelligence Scale Form L-M ... 38
4. Usia Subyek yang Mengikuti Stanford-Binet Intelligence Scale Form L-M . 40 5. Hasil Kualitas Item Tingkat Usia III-6 ... 42
6. Kelompok Kategori Item Tingkat Usia III-6 ... 43
7. Nilai Signifikansi Item ... 44
8. Kesesuaian Item dengan Tingkat Usia III-6... 45
9. Hasil Kualitas Item Tingkat Usia IV ... 46
10. Kelompok Kategori Item Tingkat Usia IV... 46
11. Nilai Signifikansi Item ... 48
12. Kesesuaian Item dengan Tingkat Usia IV ... 48
13. Hasil Kualitas Item Tingkat Usia IV-6 ... 49
14. Kelompok Kategori Item Tingkat Usia IV-6 ... 50
15. Nilai Signifikansi Item ... 51
16. Kesesuaian Item dengan Tingkat Usia IV-6 ... 51
17. Hasil Kualitas Item Tingkat Usia V ... 53
18. Kelompok Kategori Item Tingkat Usia V ... 53
19. Nilai Signifikansi Item ... 54
20. Kesesuaian Item dengan Tingkat Usia V ... 55
21. Hasil Kualitas Item Tingkat Usia VI ... 56
xvi
23. Nilai Signifikansi Item ... 58
24. Kesesuaian Item dengan Tingkat Usia VI ... 58
25. Hasil Kualitas Item Tingkat Usia VII ... 59
26. Kelompok Kategori Item Tingkat Usia VII ... 60
27. Nilai Signifikansi Item ... 61
28. Kesesuaian Item dengan Tingkat Usia VII ... 61
29. Hasil Kualitas Item Tingkat Usia VIII ... 63
30. Kelompok Kategori Item Tingkat Usia VIII ... 63
31. Nilai Signifikansi Item ... 64
32. Kesesuaian Item dengan Tingkat Usia VIII ... 65
33. Hasil Kualitas Item Tingkat Usia IX ... 66
34. Kelompok Kategori Item Tingkat Usia IX... 66
35. Nilai Signifikansi Item ... 68
36. Kesesuaian Item dengan Tingkat Usia IX ... 68
37. Hasil Kualitas Item Tingkat Usia X ... 69
38. Kelompok Kategori Item Tingkat Usia X ... 70
39. Nilai Signifikansi Item ... 71
40. Kesesuaian Item dengan Tingkat Usia X ... 71
41. Hasil Kualitas Item Tingkat Usia XI ... 73
42. Kelompok Kategori Item Tingkat Usia XI... 73
43. Nilai Signifikansi Item ... 74
44. Kesesuaian Item dengan Tingkat Usia XI ... 75
xvii
46. Kelompok Kategori Item Tingkat Usia XII ... 76
47. Nilai Signifikansi Item ... 77
48. Kesesuaian Item dengan Tingkat Usia XII ... 78
49. Hasil Kualitas Item Tingkat Usia XIII ... 79
50. Kelompok Kategori Item Tingkat Usia XIII ... 80
51. Nilai Signifikansi Item ... 81
52. Kesesuaian Item dengan Tingkat Usia XIII ... 81
53. Hasil Kualitas Item Tingkat Usia XIV ... 83
54. Kelompok Kategori Item Tingkat Usia XIV ... 83
55. Nilai Signifikansi Item ... 84
56. Kesesuaian Item dengan Tingkat Usia XIV ... 85
57. Hasil Kualitas Item Tingkat Dewasa Rata-rata ... 86
58. Kelompok Kategori Item Tingkat Dewasa Rata-rata ... 87
59. Nilai Signifikansi Item ... 88
60. Kesesuaian Item dengan Tingkat Dewasa Rata-rata ... 89
61. Hasil Kualitas Item Tingkat Dewasa Superior I ... 90
62. Kelompok Kategori Item Tingkat Dewasa Superior I ... 91
63. Nilai Signifikansi Item ... 92
64. Kesesuaian Item dengan Tingkat Dewasa Superior I ... 92
1 BAB I
PENDAHULUAN
A. Latar Belakang
Tes inteligensi sering digunakan dengan berbagai tujuan, misalnya
untuk tes seleksi masuk murid baru, penempatan dan klasifikasi siswa di
sekolah menengah, dapat digunakan juga untuk mengelompokkan siswa
dalam program kelas unggulan. Tes inteligensi juga dapat digunakan untuk
seleksi masuk karyawan di suatu perusahaan, penempatan dan klasifikasi
karyawan disuatu organisasi departemen militer dan pemerintah. Tes ini
juga dapat digunakan untuk penilitian di bidang kemampuan kognitif dan
kepribadian (Lewis & Gary-Groth, 2008).
Sampai saat ini telah banyak tes inteligensi yang dibuat oleh para ahli,
mulai dari tes inteligensi untuk anak-anak sampai orang dewasa. Penyajian
tes inteligensinya juga bermacam-macam, terdapat tes yang disajikan
secara individual ataupun kelompok, tes verbal dan performansi. Tes
inteligensi memiliki beberapa bentuk, seperti tes untuk orang dewasa,
seperti WAIS, SPM, APM, CFIT skala 3. Tes untuk anak-anak seperti
WISC, CPM, CFIT skala 1 dan 2, Tes Binet. Tes yang terakhir adalah tes
inteligensi untuk orang berkebutuhan khusus seperti tuna rungu (SON) dan
tuna netra (KIT) (“Pelatihan diagnostika, 1999”).
Tes Binet adalah tes inteligensi pertama yang dipublikasikan pada
tahun 1905 di Paris, Prancis. Tes ini pada awalnya bernama Tes
2
lancar dengan cara memisahkan pendidikan anak-anak yang kurang cerdas
dengan anak-anak yang cerdas (Suryabrata, 1984). Dalam
perkembangannya terdapat beberapa adaptasi, tetapi yang paling sering
digunakan adalah Stanford-Binet Intelligence Scale.
Stanford-Binet Intelligence Scale telah di revisi sebanyak 5 kali. Revisi pertama sampai ketiga dilakukan oleh Terman, Merrill, dan
Thorndike pada tahun 1916, 1937, 1960, dan 1972. Revisi keempat
dilakukan oleh Thorndike, Hagen, dan Sattler pada tahun 1986. Revisi
yang terakhir dan terbaru dilakukan oleh Roid pada tahun 2003 (Gregory,
1996 dan Lewis & Gary-Groth, 2008). Tes Binet yang digunakan di
Indonesia adalah Stanford-Binet Intelligence Scale Form L-M. Terman melakukan revisi tes ini dengan tujuan untuk memperbaiki item tes dalam
Tes Binet. Item-item dalam Stanford-Binet Intelligence Scale Form L-M
dikelompokkan menurut berbagai level usia, mulai dari usia 2 sampai usia
dewasa superior III. Dalam masing-masing level usia berisi item-item soal
yang memiliki taraf kesukaran yang berbeda (Azwar, 1996).
Terman melakukan revisi pada tahun 1916, revisi ini memperlihatkan
banyak perubahan sehingga tes ini terlihat seperti suatu tes baru. Lebih
dari sepertiga tes tersebut berisi soal-soal baru, sedangkan sisanya terdiri
dari soal-soal lama yang telah direvisi dan diletakkan ulang pada berbagai
tingkat usia yang berbeda. Hasil perubahan soal-soal tes tersebut kemudian
distandardisasi ulang pada sempel baru dari masyarakat Amerika Serikat
dilakukan secara berkala agar item-item soal tersebut tetap menunjukkan
hasil yang maksimal.
Stanford-Binet Intelligence Scale Form L-M telah diadaptasi ke dalam bahasa Indonesia oleh Fakultas Psikologi Universitas Gadjah Mada pada
tahun 1970 dan masih dipakai sampai sekarang. Keseluruhan soal yang
terdapat di tes ini berjumlah 173 nomor soal dan ada usaha dalam
mengurutkan soal-soal perbendaharaan kata agar sesuai dengan
kebudayaan. Sebagaian kata juga telah diubah dengan kata lain yang
dianggap lebih tepat dengan kondisi daerah setempat, seperti kata gown
diubah menjadi kebaya (Wulan, 1995).
Sejak Stanford-Binet Intelligence Scale digunakan dan terkenal di Amerika, banyak kritik yang telah muncul terhadap tes tersebut, seperti tes
ini dipengaruhi oleh kebudayaan setempat, yang terutama akan sangat
terasa pada tes perbendaharaan kata (Freeman dalam Wulan, 1995) yang
juga dirasakan di Indonesia. Stanford-Binet Intelligence Scale Form L-M
di Indonesia juga masih mempertahankan item-item yang sudah
ketinggalan jaman (Supratikya, komunikasi pribadi, 4 Oktober 2010),
sehingga anak-anak mengalami kebingungan, terutama pada subtes
penalaran verbal seperti pengertian, kata-kata abstrak, analogi yang
berlawanan, perbendaharaan kata, dan sebagainya. Tes yang baik juga
harus valid, jika tes dinyatakan valid maka dapat mengukur apa yang ingin
diukur (Lewis & Gary-Groth, 2008). Menurut Indri Savitri, S.Psi., Kepala
4
Indonesia (Handayani, 2005), tetapi penulis belum menemukan penelitian
di Indonesia yang melakukan penghitungan kualitas item dan melihat
apakah item-item dalam tes ini masih sesuai dengan kategori usia yang
ditentukan semenjak tahun 1970.
Estimasi reliabilitas harus dilakukan karena ingin melihat konsistensi
atau kepercayaan hasil ukur. Estimasi reliabilitas merupakan pengujian
yang terus menerus selama Stanford-Binet Intelligence Scale Form L-M ini masih digunakan, sedangkan data-data dalam estimasi reliabilitas
diperoleh dari kelompok subjek yang diukur (Azwar, 1999). Dalam hal ini,
subyek yang diukur adalah anak-anak yang melakukan tes Binet di
Fakultas Psikologi Universtitas Sanata Dharma.
Berdasarkan permasalahan yang telah dikemukakan diatas, peneliti
memiliki ketertarikan untuk melakukan estimasi reliabilitas dan ingin
melihat apakah item-item dalam Stanford-Binet Intelligence Scale Form L-M masih sesuai digunakan pada kategori usia yang telah ditentukan.
B. Rumusan Masalah
Permasalahan yang akan diteliti adalah:
1. Bagaimana reliabilitas Stanford-Binet Intelligence Scale Form L-M yang digunakan di Indonesia?
3. Bagaimana kualitas item Stanford-Binet Intelligence Scale Form L-M yang digunakan di Indonesia?
4. Apakah item-item dalam Stanford-Binet Intelligence Scale Form L-M
masih sesuai digunakan pada kategori usia yang telah ditentukan?
C. Tujuan Penelitian
1. Untuk mengetahui reliabilitas Stanford-Binet Intelligence Scale Form L-M
yang digunakan di Indonesia.
2. Untuk mengetahui validitas Stanford-Binet Intelligence Scale Form L-M
yang digunakan di Indonesia.
3. Untuk mengetahui kualitas item Stanford-Binet Intelligence Scale Form L-M yang digunakan di Indonesia.
4. Untuk melihat kesesuaian item-item dalam Stanford-Binet Intelligence Scale Form L-M pada kategori usia anak yang telah ditentukan.
D. Manfaat Penelitian
1. Manfaat teoritis
6
2. Manfaat praktis
Agar dapat menjadikan masukan dan pertimbangan bagi Pusat Pelayanan
Tes dan Konsultasi serta Laboratorium Fakultas Psiologi Sanata Dharma
7
BAB II
LANDASAN TEORI
A. Tes Psikologi
Salah satu bentuk alat ukur adalah tes. Tes merupakan suatu alat untuk
mendapatkan sempel tertentu dari perilaku seseorang (Allen & Yen, 1979).
Tes dapat dilakukan dalam bentuk tulisan, visual atau lisan yang
diadministrasikan untuk mengukur fungsi kognitif dan emosional. Tes
dapat diaplikasikan kepada anak-anak maupun dewasa.
1. Pengertian tes psikologi
Tes merupakan sebuah alat ukur yang terdiri dari sekumpulan
pertanyaan yang harus di jawab, dari hasil jawaban tersebut ditemukan
informasi tentang aspek-aspek psikologis tertentu, seperti: tingkat
inteligensi, bakat, kepribadian, dll. Definisi tes sendiri adalah suatu alat
untuk mendapatkan sampel tertentu dari perilaku seseorang dan
merupakan suatu pengukuran yang objektif serta merupakan standar
pengukuran terhadap sampel perilaku (Allen & Yen, 1979; Anastasi,
1997). Sehingga dapat dikatakan bahwa tes psikologi merupakan bentuk
yang tertata dengan jelas dan memiliki maksud didalamnya, serta dengan
tes psikologi dapat menggambarkan perilaku testee.
Selain pengertian di atas, terdapat juga 5 unsur dalam definisi tes yaitu
prosedur harus baku, skor atau karegori, sempel perilaku, norma atau
8
dilihat dari prosedur administrasinya sama atau seragam dari tester ke
tester yang lain dan dapat dilihat dari petunjuk yang terdapat di buku
manual atau petunjuk suatu tes. Dalam unsur skor atau kategori
menyatakan bahwa setiap tes menghasilkan satu atau lebih skor, sehingga
suatu tes psikologi menggambarkan performansi seseorang secara singkat
dalam kategori tertentu. Sedangkan pada sampel perilaku, tes
memungkinkan tester untuk memprediksi perilaku lain yang muncul
seperti yang diinginkan atau diprediksikan. Maka dari itu, item-item tes
yang dibuat tidak harus sesuai dengan perilaku yang dinginkan atau
diprediksi. Pada suatu tes harus terdapat norma atau standart, norma
merupakan ringkasan hasil-hasil pada suatu tes yang dikumpulkan dari
sejumlah besar subyek yang mewakili suatu populasi tertentu.
Memprediksikan berbagai macam perilaku yang berada di luar pengetesan
adalah tujuan akhir suatu tes. Sehingga, yang menjadi perhatian utama
pada akhirnya adalah “non-test behavior” yang dapat diprediksikan oleh
suatu tes (Supratiknya, 1998).
Jadi tes psikologi dapat didefinisikan sebagai suatu kumpulan
pertanyaan yang memiliki prosedur yang baku, terstandar atau sistematis
yang digunakan untuk mengamati atau memprediksi perilaku seseorang.
2. Klasifikasi tes dalam psikologi
Tes psikologi dapat dikelompokkan dan dibedakan dalam berbagai
a. Tes psikologi dibagi menjadi dua kelompok besar, yaitu
(Supratiknya, 1998; Gregory, 1996):
1) Tes yang Mengukur Performansi Maksimal (Maximum
Performance): Tes ini umumnya digunakan untuk mengukur
atau mengungkapkan seberapa baik testee mengerjakan tes
tersebut. Testee didorong untuk berusaha sebaik mungkin
dalam pengetesan. Tes ini dirancang untuk melihat beberapa
hal seperti:
a) Tes Inteligensi: Bertujuan mengambil sampel berbagai jenis
ketrampilan untuk mengestimasi tingkat itelektual umum
individu dalam bentik rasio IQ.
b) Tes Kemampuan (Aptitude Test): Dipakai untuk
memprediksikan keberhasilan individu dalam suatu
pekerjaan, pelatihan, atau pendidikan dan paling sering
digunakan utuk seleksi penerimaan mahasiswa baru.
c) Tes Prestasi: Tes ini bertujuan untuk mengukur taraf
belajar, keberhasilan atau prestasi dalam suatu mata
pelajaran. Menentukan seberapa banyak materi
pembelajaran yang dipahami oleh individu.
2) Tes yang Mengukur Performansi Tipikal (Typical
Performance): Tes ini umumnya digunakan untuk mengetahui
perasaan, pikiran, dan perilaku seseorang dalam menghadapi
10
atau salah, sehingga testee sulit menebak jawaban terbaik yang
harus diberikan. Tes ini biasanya digunakan untuk mengukur
beberapa hal seperti:
a) Tes Kepribadian: Digunakan untuk mengukur sifat-sifat atau
perilaku-perilaku yang menentukan individualitas seseoang
dan bermanfaat untuk memprediksikan tingkah laku.
b) Inventori Minat: Mengukur prefensi individu dalam aktivitas
atau topik tertentu yang dianggap bermanfaat serta
berpengaruh dalam memilih pekerjaan.
c) Behavior Procedures: Alat yang digunakan untuk mengukur
anteseden dan konsekuen perilaku. Anteseden adalah kondisi
baik yang ada di dalam ataupun di luar individu sebelum
terjadi perilaku tertentu yang menjadi objek pengukuran.
Konsekuen adalah kondisi yang muncul dan mengikuti
terjadinya perilaku tertentu.
b. Menurut cara administrasi dan penyajiannya (Gregory, 1996;
Suryabrata, 1984):
1) Tes Kelompok (Group Test): Umumnya merupakan tes paper
and pencil yang cocok digunakan dalam jumlah subjek yang
banyak dan dilakukan secara serentak.
2) Tes Individual: Alat tes jenis ini harus dilakukan dengan tatap
3) Kedua kelompok tes ini dapat disajikan secara verbal dan non
verbal. Pada tes verbal, testee menyelesaikan
pertanyaan-pertanyaan yang diberikan dengan menggunakan kata-kata,
seperti memberikan alasan, memberikan hasil perhitungan,
mengatakan keanehan gambar, dll. Sedangkan pada tes non
verbal, testee mengerjakan pertanyaan-pertanyaan yang
diberikan dengan melakukan sesuatu, seperti menyusun balok,
mengatur gambar, menyusun puzzle, dll.
c. Berdasarkan tipe tes yang berhubungan dengan isi dan waktu tes
(Suryabrata, 1984):
1) Speed tes: Pada tes ini mengutamakan kecepatan dan ketepatan
dalam bekerja, sehingga dalam mengerjakan tes waktu akan
dibatasi.
2) Power tes: Pada tes ini mengutamakan kemampuan dalam
bekerja dan pada dasarnya dalam mengerjakan tes waktu tidak
dibatasi.
Berdasarkan kategori-kategori di atas, Stanford-Binet Intelligence
Scale Form L-M merupakan tes yang digolongkan dalam kategori
Maximum Performance Test. Tes ini dilakukan secara individu dan
digunakan untuk mengukur inteligensi seseorang. Cara penyajian tes ini
12
3. Syarat tes yang baik
Tes psikologi digunakan sebagai alat pembanding atau pengukur.
Maka dari itu, agar dapat memenuhi fungsinya secara baik harus
mengikuti syarat-syarat sebagai berikut:
a. Memiliki tujuan yang jelas, mencakup apa yang hendak diukur,
siapa yang menjadi subjeknya, dan bagaimana skor-skor tes akan
digunakan (Supratiknya, 1998).
b. Setiap tes harus distandarisasikan dengan tujuan agar setiap orang
yang di tes mendapatkan perlakuan yang sama. Hal-hal yang perlu
distandarisasikan adalah materi tes (bahan dan isi tes harus spesifik
dan baku), prosedur administrasi yang baik. Selain itu juga harus
memiliki prosedur penskoran yang baku, termasuk dalam caranya
memberi skor, sistem dalam melakukan skoring, dan terdapat kunci
untuk melakukan skoring serta mudah untuk digunakan
(Suryabrata, 1984; Supratiknya, 1998).
c. Reliabel, yang dimaksud reliabel adalah hasil suatu tes harus dapat
dipercaya, stabil dan memiliki konsistensi yang tinggi (Azwar,
2003).
d. Valid, yaitu suatu tes harus memiliki validitas yang tinggi dan hal
ini dilihat apabila alat tes tersebut memberi hasil ukur yang sesuai
dengan maksud dilaksanakan pengetesan tersebut (Azwar, 2003
e. Kualitas item, dibutuhkan paling tidak dua kriteria untuk melihat
kualitas item dari suatu tes, yaitu indeks kesukaran item dan indeks
daya diskriminasi item. Kedua kriteria tersebut dihitung secara
terpisah, tetapi pada akhirnya akan menjadi suatu kesatuan yang
menentukan apakah item tersebut baik atau tidak. Setelah itu,
diukur pula efektifitas distraktornya. Ini digunakan untuk melihat
apakah tiap distraktor yang dibuat telah berfungsi sebagaimana
yang seharusnya atau tidak (Supratiknya, 1998).
B. Tes Binet
1. Sejarah Tes Binet
Tes Binet merupakan tes yang diadministrasikan secara individual.
Hanya ada satu orang tester dan seorang testee, kemudian tester
memberikan instruksi untuk tiap item yang diberikan sesuai dengan buku
manual yang tersedia (Friedenberg, 1995). Tes Binet-Simon diterbitkan di
Prancis pada tahun 1905, 1908, dan 1911. Pada awalnya Tes Binet di buat
dengan bentuk yang sangat sederhana, hanya terdiri dari 30 soal yang
disajikan secara urut dan dirancang menggunakan penekanan khusus pada
penilaian (judgment), pemahaman, dan penalaran yang menurut Binet
merupakan komponen penting dalam pembuatan tes inteligensi (Anastasi,
2007). Pada tahun 1908, Binet-Simon memperkenalkan konsep tentang
14
maka banyak dilakukan revisi maupun adaptasi. Tes ini sering di sebut
sebagai modal dan model dari tes inteligensi (Suryabrata, 1984).
Ada berbagai macam adaptasi yang dilakukan oleh para ahli
diberbagai negara, di Amerika Serikat ada tiga terjemahan dan adaptasi.
Pertama dilakukan oleh H.H. Goddard dari Vineland Training School,
yang kedua dilakukan oleh Frederic Kulhamn dari Universitas Minnesota,
dan yang ketiga dilakukan oleh Lewis Terman dari Stanford University
(Lewis & Gary-Groth, 2008). Dari berbagai macam revisi, yang paling
sering digunakan adalah revisi Stanford-Binet Intelligence Scale.
Revisi kelima merupakan revisi yang paling baru dan dilakukan oleh
Roid pada tahun 2003. Stanford-Binet Intelligence mengalami
perkembangan akibat revisi ini, salah satunya adalah tes ini dapat
dilakukan pada individu yang berumur 2 tahun sampai 85 tahun. Item yang
ada dalam tes ini dibuat dan dirancang untuk memeriksa ketidakmampuan
klinis dan neuropsikologi, bermanfaat dalam penempatan pendidikan
khusus, dapat memeriksa evaluasi kompensasi karyawan, perencanaan
karir, penyeleksian karyawan, konteks forensik, dan bidang terapi lainnya
(Lewis & Gary-Groth, 2008).
Di antara berbagai terjemahan dan adaptasi yang muncul di Amerika
Serikat, yang paling penting dan popular adalah Stanford Binet dibentuk
oleh Terman dan rekan-rekannya di Stanford University (Anastasi, 1997;
Lewis, 1998). Tes ini telah menjadi ukuran yang paling populer dalam
digunakan diberbagai negara dan dengan konteks yang berbeda-beda. Pada
tahun 1916, Terman tetap menggunakan format awal dengan
menggunakan skala usia dan memasukkan item-item ke dalam sejumlah
level usia kronologi (Lewis & Gary-Groth, 2008; Lewis, 1998). Tetapi dia
melakukan beberapa revisi sehingga banyak sekali perubahan yang terjadi
dan sejumlah soal lama di revisi, dipindah ke tingkat usia yang lain atau
disingkirkan (Anastasi, 1997).
Penelitian dan revisi yang dibuat oleh Terman pada tahun 1916
memiliki kelemahan, antara lain: tidak mewakili populasi Amerika Serikat
pada saat itu dan mengalami kekurangan pengetesan orang dewasa serta
anak-anak (Lewis & Gary-Groth, 2008). Maka pada tahun 1937, Terman
dan Merrill mengembangkan tes ini menjadi dua bentuk paralel, form L
dan M dan memiliki standarisasi yang lebih baik. Di sini Terman
memberikan konsep basal (batas bawah) dan ceiling (batas atas).
Item-item yang dibuat dikelompokkan berdasarkan level setengah tahunan dari
Tahun II sampai Tahun V dan level tahunan dari Tahun VI sampai Tahun
XIV. Selain itu terdapat juga level Dewasa Rata-rata dan tiga level Dewasa
Superior. Tes ini terdiri dari eman subtes pada level Tahun II sampai
Tahun V yang memiliki kredit 1 bulan setiap subtes dan kredit 2 bulan
untuk level Tahun VI sampai XIV. Selain itu terdapat kredit 4, 5, dan 6
bulan untuk ketiga level Dewasa Superior tiap subtesnya (Lewis &
16
Setelah form L dan M terbentuk dan diadministrasikan kepada 3.184
responden, ternyata tes tersebut memberikan hasil yang tidak begitu baik.
Maka Terman menyatukan kedua form tersebut menjadi satu bentuk yang
tunggal (L-M) dan berisi soal-soal terbaik dari kedua form yang ada.
Selain itu, Terman menambahkan subtes pengganti pada tiap level usia.
Subtes pengganti ini dipakai ketika terjadi kesalahan dalam melakukan
instruksi. Waktu pengetesan dapat di perpendek dengan menggunakan 4
subtes terpilih dari 6 subtes yang disediakan. revisi ketiga ini akhirnya
memberikan hasil yang cukup baik ketika di standardisasi pada tahun 1972
(Lewis & Gary-Groth, 2008).
2. Administrasi Tes Binet
Pengadministrasian Stanford-Binet Intelligence Scale Form L-M
dimulai dari menghitung usia kronologinya. Usia ini di dapat dari tanggal
lahir testee dan tanggal pengetesan. Tes di mulai dan disesuaikan dengan
usia kronologisnya. Jadi, tidak seluruh level tahun Stanford-Binet
Intelligence Scale Form L-M diberikan kepada testee. Testee akan
memperoleh usia basal jika pada level tertentu menjawab semua subtes
dengan benar dan akan memperoleh usia ceiling jika pada level tertentu
menjawab semua subtes dengan salah. Setelah mendapat usia ceiling
pengetesan dihentikan meskipun belum menyelesaikan semua level yang
Stanford-Binet Intelligence Scale Form L-M memiliki beberapa subtes
seperti: Penalaran Verbal yang digambarkan dengan kosakata,
pemahaman, perbendaharaan kata, dll. Subtes Penalaran Visual yang
disediakan dalam bentuk analisis pola, meniru, melipat dan menggunting
kertas. Terdapat juga subtes Memori Jangka Pendek yang digambarkan
dalam memori untuk kalimat (Anastasi, 1997). Setiap subtes ini diberi skor
dengan memberikan tanda plus (+) dan minus (-) yang pada skor tanda
plus akan diberi kredit sesuai dengan level usia.
3. Kesesuaian item dengan kriteria usia
Jumlah item dalam Stanford-Binet Intelligence Scale Form L-M terdiri
dari 173 item. Namun semua soal ini tidak digunakan secara keseluruhan
dikarenakan seseorang hanya akan memulai tes ini dari usia kronologinya
dan pengetesan akan berhenti jika subjek telah mendapatkan umur ceiling.
Umur ceiling subjek gagal atau mendapat skor minus untuk semua soal
pada tingkat umur tertentu. Tingkat umur di dalam Stanford-Binet
Intelligence Scale Form L-M ini menimbulkan keraguan dalam
penggunaannya. Hal ini terjadi karena pada jaman sekarang ini belum ada
penelitian yang membahas tentang perbaikan Stanford-Binet Intelligence
Scale Form L-M sejak tahun 1970 (Wulan, 1995). Maka dari itu,
kesesuaian item dengan kriteria usia akan dihitung kembali menggunakan
18
C. Kualitas Psikometrik Tes
Tes psikologi sebagai alat pembanding atau pengukur, agar dapat
menjalankan fungsinya secara baik haruslah memiliki kualitas tertentu
dengan syarat-syarat tes yang baik sebagai berikut: valid, reliabel, dan
memiliki statistik item yang baik (Supratiknya, 1998).
1. Reliabilitas
a. Pengertian Reliabilitas
Reliabilitas memiliki beberapa istilah seperti keterpercayaan,
keterandalan, keajegan, kestabilan, konsistensi dan masih banyak istilah
yang lain (Azwar, 1997 dan Supratiknya, 1998). Suatu tes disebut
reliabel jika skor yang ada memiliki korelasi yang tinggi dengan situasi
yang sebenarnya dan berhubungan dengan ketepatan pengukuran tanpa
menghiraukan apa yang diukur (Allen & Yen, 1979 dan Nunnally,
1978). Dalam menentukan reliabilias digambarkan bahwa tes mengukur
karakteristik yang relatif stabil. Sedangkan unreliabilitas merupakan
hasil dari kesalahan pengukuran yang terjadi karena keadaan internal
yang sementara, seperti motivasi yang rendah, keengganan dalam
mengerjakan atau kondisi eksternal seperti gangguan dari lingkungan
tes yang tidak nyaman (Lewis & Gary-Groth, 2008).
b. Beberapa Pendekatan Estimasi Reliabilitas
Secara lebih terperinci, metode estimasi reliabilitas terdiri atas 3
bentuk, yaitu (Lewis & Gary-Groth, 2008., Supratiknya, 1998.,
1) Koefisien Test Retest
Dihitung untuk melihat kekonsistensian tes tertentu dari waktu ke
waktu. Untuk melihat konsistensi suatu tes menggunakan metode
ini harus dilakukan pengetesan sebanyak dua kali. Panjang
pendeknya waktu yang ditentukan antara tes yang pertama dengan
yang kedua tergantung dari keyakinan tester tentang kestabilan sifat
yang ingin diukur. Koefisien reliabilitasnya adalah korelasi dari
hasil pengukuran pertama dengan yang kedua. Tetapi, metode ini
memiliki beberapa kelemahan yaitu kurang praktis dan memungkinkan carry over effects.
2) Koefisien Bentuk Paralel
Koefisien paralel adalah tes yang terdiri dari item yang tidak sama
tetapi harus sama secara kualitas dan kuantitasnya. Metode ini
menggunakan dua bentuk dari tes yang paralel yang diberikan pada
subjek yang sama. Kedua bentuk tes tersebut harus diberikan dalam
waktu yang dekat untuk menghindari kelelahan. Koefisien korelasi
kedua bentuk tes tersebut kemudian dihitung. Estimasi reliabilitas
ini ingin menunjukkan sejauh mana kedua bentuk tes yang
berlainan mengukur kemampuan atau sifat yang sama. Tetapi,
metode ini memiliki beberapa kelemahan yaitu sulit mencari alat
ukur yang paralel dan tidak menghilangkan kemungkinan carry
20
3) Koefisien Konsistensi Internal
Tes ini terdiri dari item yang seluruhnya mengukur kepribadian
atau sifat yang sama dan diambil dari tempat atau wilayah yang
sama. Koefisien konsistensi internal bertujuan untuk melihat
konsistensi antar item atau antar bagian dalam suatu tes. Setelah
skor diperoleh dari satu kelompok, tes tersebut dibagi menjadi
beberapa bagian atau belahan. Bentuk, sifat alat ukur dan
banyaknya belahan menentukan teknik perhitungan koefisien
reliabilitasnya. Metode ini mencakup beberapa metode seperti
Metode Split Half Spearman, Kuder Richardson, dan Koefisien
Alfa Cronbach.
a) Spilt Half Spearman
Setelah dilakukan pengetesan, terdapat beberapa cara untuk
membagi tes tersebut yaitu membagi berdasarkan item dengan
nomor ganjil dan item dengan nomor genap, membagi secara
acak, atau mengurutkan berdasarkan tingkat kesukaran yang
dilihat dari respon subjek, kemudian membagi dalam peringkat
dengan nomor ganjil dan genap. Dalam melakukan pembelahan
digunakan asumsi bahwa dua belahan tersebut memiliki mean
dan varian yang sama. Tes dapat diestimasi dengan
b) Kuder-Richardson
Salah satu metode yang cukup dikenal selain koefisien alpha
adalah Kuder Richardson. Formula ini berasal dari usaha
Kuder dan Richardson ketika mencari solusi dalam mengatasi
masalah yang diakibatkan ketidakjelasan stategi split half yang
akan menghasilkan estimasi reliabilitas yang terbaik. Maka
diambillah rata-rata koefisien realibilitas yang diperoleh dari
semua model spilt half sebagai estimasi reliabilitas secara
keseluruhan. Kuder dan Richardson yang menciptakan
prosedur jalan pintas untuk mengambil rata-rata dari model
split half.
c) Koefisien Alpha Cronbach
Keuntungan metode ini hanya perlu melakukan satu kali
pengetesan. Apabila kedua belahan tidak paralel, maka
koefisien reliabilitas keseluruhan tesnya di estimasi
menggunakan koefisien α. Koefisien alpha digunakan untuk
mengestimasi reliabilitas tes yang terdiri dari item dengan
bobot berbeda dan diberikan pada respon yang berbeda.
Koefisien α akan memberikan underestimasi kepada koefisien
reliabilitas seluruh tes apabila kedua belahannya tidak
22
2. Validitas
a. Pengertian Validitas
Validitas didefinisikan sebagai seberapa jauh tes dapat mengukur
apa yang ingin diukur (Lewis & Gary-Groth, 2008). Validitas berasal
dari bahasa Inggris dari kata validity yang berarti keabsahan atau
kebenaran. Dalam konteks alat ukur atau instrumen asesmen, validitas
berarti sejauh mana kecermatan atau ketepatan alat ukur dalam
melakukan fungsi ukurnya. Suatu tes dikatakan memiliki validitas yang
rendah jika tes menghasilkan data yang tidak relevan dengan tujuan
pengukurannya (Azwar, 1997).
b. Beberapa Pendekatan Estimasi Validitas
Secara lebih terperinci, metode estimasi validitas terdiri atas 3
bentuk, yaitu (Supratiknya, 1998., Anastasi, 2007., Azwar, 1997.,
Lewis & Gary-Groth, 2008., dan Allen & Yen, 1979):
1) Validitas Isi (Content Validity)
Sebuah tes dikatakan memiliki validitas isi jika butir-butir tes bersifat
representatif atau menimbulkan respon yang mewakili seluruh
domain dari ketrampilan, pemahaman, dan perilaku yang telah
dirancang untuk diukur dalam suatu tes. Pengujian validitas isi tidak
melalui prosedur pengujian secara statistik, melainkan melalui analisis
secara rasional. Validitas isi muncul dalam bentuk personal
kemampuan atau pengetahuan. Validitas isi terbagi menjadi dua
kategori yaitu:
a) Validitas Muka (Face Validity)
Validitas muka merupakan validitas yang paling rendah
signifikansinya. Hal ini terjadi karena suatu tes hanya dilihat
berdasarkan format penampilan tes tersebut. Validitas muka
dilakukan dengan meminta seseorang untuk memeriksa tes dan
menyimpulkan apakah tes tersebut mengukur sifat yang ingin
diukur. Sehingga lebih bersifat common sense. Hal ini dapat
terlihat dari apakah tes tersebut valid menurut testee, tenaga
administratif yang menggunakan tes tersebut, dan bagi orang
lain yang tidak terlatih secara teknis.
b) Validitas logis (Logical Validity)
Validitas logis bermanfaat untuk menyusun tes jenis
achievement. Validitas logis digunakan untuk melihat sejauh
mana suatu tes merepresentasikan ciri-ciri atribut yang hendak
diukur. Agar mendapatkan validitas logis yang tinggi suatu tes
harus dirancang sedemikian rupa sehingga benar-benar berisi
item yang relevan (Azwar, 2003).
2) Validitas Konstruk (Construct Validity)
Validitas konstruk merupakan tipe dari validitas yang dapat
24
konstruk teoritis yang hendak diukur (Allen & Yen, 1979). Ada dua
bentuk validitas konstruk yang penting, yaitu:
a) Validitas Multitrait-Multimethod
Validitas ini digunakan jika dalam suatu tes terdapat dua trait
atau lebih yang diukur oleh dua metode atau lebih. Validitas
ini terbagi menjadi dua jenis, yaitu validitas konvergen dan
validitas diskriminan. Validitas konvergen adalah suatu tes
memiliki korelasi tinggi antara tes-tes yang mengukur sifat
atau trait yang sama dengan metode yang berbeda, dengan kata
lain tes-tes yang berbeda bertemu pada sifat yang sama.
Sedangkan validitas diskriminan adalah suatu tes memiliki
korelasi rendah antara tes-tes yang mengukur sifat atau trait
yang berbeda dengan metode yang sama, dengan kata lain
tes-tes yang berbeda memang membedakan sifat-sifat yang tidak
sama (Allen & Yen, 1979).
b) Validitas Faktorial
Validitas faktorial merupakan bentuk dari validitas konstruk
yang diteliti menggunakan analisis faktor. Analisis faktor
digunakan untuk sarana mengidentifikasi sifat-sifat psikologis
(Anastasi, 2007). Validitas faktorial diteliti dengan melakukan
analisis faktor terhadap suatu tes dan sekaligus pada
serangkaian tes yang diketahui mengukur sejumlah faktor atau
3) Validitas Kriteria (Criterion Validity)
Validitas kriteria adalah suatu prosedur yang berupa skor tes
sekelompok orang yang kemudian dibandingkan dengan peringkat,
klasifikasi, dll. Kriteria adalah variabel perilaku tertentu yang akan
diprediksi dengan menggunakan skor-skor tes tersebut. Prosedur
validitas kriteria terdiri dari dua macam, yaitu validitas prediktif
dan validitas konkuren (Azwar, 1997).
Validitas konkuren digunakan jika skor tes dan skor kriteria
diperoleh dalam waktu yang sama. Validitas konkuren
dilaksanakan pada orang-orang dengan kelompok tersentu, seperti
kelompok diagnostik atau level sosial-ekonomi. Sedangkan
validitas prediktif digunakan untuk memprediksi tingkah laku di
masa yang akan datang. Validitas prediktif penting digunkan pada
tes bakat atau tes kecerdasan, karena skor pada jenis instrumen ini
sering berkorelasi dengan peringkat, kelas, dan lain-lain (Lewis &
Gary-Groth, 2008).
3. Kualitas Item
Tes yang baik adalah tes yang memiliki kualitas item yang baik.
Item-item tersebut telah melalui proses penyusunan yang sesuai dengan
26
a. Taraf Kesukaran
Taraf kesukaran item ditunjukkan oleh suatu indeks kesukaran item
yang disimbolkan dengan huruf p. Dalam kebanyakan tujuan
pengetesan, tingkat kesulitan soal dihubungkan dengan persentase
orang-orang yang menjawab dengan benar. Semakin mudah soal yang
dibuat, semakin besar persentasenya. Mengatur item-item soal
merupakan hal yang wajar dalam suatu pengetesan, hal ini membuat
peserta dapat mengerjakan soal yang lebih mudah terdahulu sehingga
tidak membuang waktu yang banyak dalam mengerjakan soal yang
menurut mereka sulit dan dapat meningkatkan kepercayaan diri peserta
dalam mengerjakan tes yang diberikan. Mengukur tingkat kesulitan
item ini bertujuan supaya dalam suatu tes terdiri dari butir soal dengan
tingkat kesulitan yang sesuai (Anastasi, 1997; Supratiknya, 1998).
Semakin besar nilai p maka item tersebut semakin mudah, tetapi
jika nilai p semakin kecil maka item tersebut semakin sulit. Apabila
suatu item sangat sulit sehingga tidak ada seorang pun yang menjawab
dengan benar, maka nilai p adalah 0. Sedangkan, suatu item sangat
mudah dijawab sehingga semua orang dapat menjawab dengan benar,
maka nilai p adalah 1. Jika suatu item memiliki nilai 0 atau 1, semakin
kurang pentinglah informasi tentang peserta tes yang disumbangkan
oleh tes tersebut (Anastasi, 1997; Supratiknya, 1998). Indeks kesukaran
item yang ideal berada dikisaran 0,3 sampai dengan 0,7 (Allen & Yen,
b. Daya Diskriminasi
Daya diskriminasi adalah kemampuan suatu item tes dapat
mendiskriminasikan antara testee yang berkemampuan tinggi dengan
testee yang berkemampuan rendah dan dilambangkan dengan huruf d.
Suatu item dikatakan memiliki daya diskriminasi yang tinggi apabila
seluruh atau sebagian besar kelompok tinggi menjawab dengan benar
dan tidak dapat dijawab dengan benar oleh kelompok rendah. Indeks
diskriminasi yang ideal adalah yang mendekati angka 1. Semakin
mendekati angka 1 berarti item tersebut semakin mampu membedakan
antara kelompok orang yang menguasai bahan yang diujikan dengan
kelompok orang yang tidak menguasai bahan yang diujikan. Berikut ini
terdapat tabel yang menunjukkan kriteria evaluasi indeks diskriminasi
(Supratiknya, 1998).
Tabel 1.
Kriteria Evaluasi Indeks Diskriminasi
Indeks Diskriminasi Evaluasi
0,40 atau lebih Bagus sekali
0,30 – 0,39 Lumayan baik tetapi masih perlu ditingkatkan
0,20 – 0,29 Belum memuaskan, perlu perbaikan Kurang dari 0,20 Buruk dan harus dibuang
Pengujian daya diskriminasi item juga dapat dilakukan dengan
koefisien korelasi item total yang dikenal dengan parameter daya beda
item (Friedenberg, 1995). Semakin tinggi korelasi positif antara skor
item dengan skor tes secara keseluruhan berarti semakin tinggi daya
bedanya. Sedangkan, koefisien korelasi yang rendah mendekati nol
28
bedanya tidak baik. Besarnya koefisien korelasi item total dimulai dari
0,00 sampai dengan 1,00 dengan tanda positif atau negatif. Koefisien
korelasi yang mendekati angka 1,00 menunjukkan bahwa daya
diskriminasi item semakin baik (Azwar, 1999).
Kriteria pemilihan item melalui korelasi item total biasanya
menggunakan batasan rix ≥ 0,30. Item yang memiliki nilai rix kurang
dari 0,30 mempunyai daya diskriminasi rendah. Batasan ini merupakan
suatu konvensi yang berarti penyusun tes diperbolehkan menentukan
sendiri batasan daya diskriminasi itemnya dengan mempertimbangkan
isi dan tujuan skala yang sedang disusun (Azwar, 1999).
D. Kerangka Penelitian
Peneliti ingin melakukan penelitian kuaitas psikometrik dalam
Stanford-Binet Intelligence Scale Form L-M yang digunakan di Fakultas
Psikologi dengan menghitung kualitas item melalui korelasi item total dan
taraf kesukaran, reliabilitas dengan menggunakan teknik estimasi koefisien
alpha Cronbach, estimasi validitas dengan teknik validitas isi, serta
kesesuaian item dengan kriteria usia menggunakan regresi logistik biner.
Peneliti akan melakukan analisis kuantitatif terhadap item-item
Stanford-Binet Intelligence Scale Form L-M menggunakan daya
diskriminasi item dengan metode pendekatan korelasi item total. Koefisien
korelasi item total akan dihitung menggunakan formula korelasi
Form L-M diberi skor kontinyu. Indeks daya diskriminasi yang ideal
memiliki korelasi item total bernilai positif dan ≥ 0,3 (Azwar, 1999).
Sedangkan, taraf kesukaran item akan dihitung dengan membagi jumlah
subyek yang menjawab benar dengan jumlah subyek yang menjawab item
tersebut. Indeks kesukaran item yang ideal berada dikisaran 0,3 sampai
dengan 0,7 (Allen & Yen, 1979).
Reliabilitas konsistensi internal dilakukan dengan menggunakan
teknik estimasi koefisien alpha Cronbach. Koefisien reliabilitas akan
dihitung sebanyak dua kali, yaitu sebelum item digugurkan dan sesudah
item digugurkan. Koefisien alpha untuk tes kognitif berkisar ≥ 0,90 – 1,0
(Murphy, 1991) dan koefisien reliabilitas jika item dihapus menurun atau
tetap.
Validitas dilakukan dengan menggunakan teknik validitas isi. Apabila
item tes dianggap mempresentasikan hal yang akan diukur, maka tes
tersebut memiliki validitas isi (Supratiknya, 1998).
Dalam mengetahui kesesuaian item dengan kriteria usia digunakan
regresi logistik. Model Regresi Logistik dirancang untuk melakukan
prediksi keanggotaan suatu kategori (grup) dengan maksud menganalisis
seberapa jauh model yang digunakan mampu memprediksi secara benar
kategori (grup) dari sejumlah individu (Kuncoro, 2003). Dalam penelitian
ini analisis regresi logistik dipakai untuk menjawab apakah item-item di
tiap level usia dalam Stanford-Binet Intelligence Scale Form L-M mampu
30
metode analisis regresi yang menggambarkan hubungan antara variabel
respon (dependen) dengan satu atau lebih variabel prediktor (independen)
(Hosmer, 1989). Variabel Y (dependen)harus merupakan variable dummy
yang mempunyai dua alternatif. Sedangkan, variabel X (independen)
mempunyai skala data interval atau rasio. Untuk menempatkan item ke
setiap tingkat usia digunakan nilai proporsi respon jawaban yang benar
yaitu 0,50.
E. Pertanyaan Penelitian
1. Bagaimana estimasi reliabilitas dari hasil pengetesan Stanford-Binet
Intelligence Scale Form L-M di Laboratorium Fakultas Psikologi Sanata
Dharma?
2. Bagaimana tingkat kesukaran dari hasil pengetesan Stanford-Binet
Intelligence Scale Form L-M di Laboratorium Fakultas Psikologi Sanata
Dharma?
3. Bagaimana daya diskriminasi dari hasil pengetesan Stanford-Binet
Intelligence Scale Form L-M di Laboratorium Fakultas Psikologi Sanata
Dharma?
4. Bagaimana estimasi validitas dari hasil pengetesan Stanford-Binet
Intelligence Scale Form L-M di Laboratorium Fakultas Psikologi Sanata
5. Bagaimana kesesuaian item dengan kriteria usia dari hasil pengetesan
Stanford-Binet Intelligence Scale Form L-M di Laboratorium Fakultas
32 BAB III
METODE PENELITIAN
A. Jenis Penelitian
Jenis penilitian ini adalah penelitian deskriptif kuantitatif. Peneilitan
ini dilakukan dengan menyajikan data, menganalisis, menginterpretasi
data yang telah tersedia dan tidak berusaha untuk mengindentifikasikan
kaitan sebab-akibatnya.
B. Identifikasi Variabel
Berdasarkan pertanyaan penelitian pada bagian sebelumnya, variabel
penelitian dapat dikelompokkan sebagai berikut:
1. Indeks Kesukaran Item
2. Indeks Daya Diskriminasi Item
3. Reliabilitas
4. Validitas
C. Definisi Operasional
Definisi operasional untuk masing-masing variabel adalah sebagai
1. Indeks Kesukaran Item
Indeks kesukaran item disimbolkan oleh huruf p, penghitungannya
dilakukan dengan membagi banyaknya subjek yang menjawab benar
dengan banyaknya subjek yang menjawab item tersebut.
2. Indeks Daya Diskriminasi Item
Dalam menghitung indeks daya diskriminasi item, ditentukan melalui
korelasi item total yang akan dihitung menggunakan SPSS versi 15.
3. Reliabilitas
Dalam penelitian ini, estimasi reliabilitas yang akan digunakan adalah
estimasi reliabilitas model koefisien alpha. Pada penelitian ini, penghitungan reliabilitas dilakukan tiap tingkat usia dengan menggunakan
SPSS versi 15. Koefisien reliabilitas akan dihitung sebanyak dua kali,
yaitu sebelum item digugurkan dan sesudah item digugurkan. Prosedur
pengguguran item adalah jika koefisien reliabilitas item memiliki nilai
lebih besar dari koefisien reliabilitas per tingkat usia, maka item tersebut
digugurkan dan kemudian dihitung kembali sampai tidak terdapat
koefisien reliabilitas item yang lebih besar dari koefisien reliabilitas per
tingkat usia.
4. Validitas
Dalam penelitian ini, estimasi validitas yang digunakan adalah validitas
isi. Validitas isi muncul dalam bentuk personal judgement. Pengujian validitas isi tidak melalui prosedur pengujian secara statistik, melainkan
34
D. Subjek Penelitian
Dalam penelitian ini subjek yang diambil yaitu anak-anak yang
mengikuti Stanford-Binet Intelligence Scale Form L-M di Laboratorium Fakultas Psikologi Sanata Dharma pada tahun 2006, 2007, dan 2008
dengan jumlah total subjek 369 orang. Pada tiap tingkat umur, jumlah
subjek berbeda-beda dan diuraikan pada tabel berikut:
Tabel 2.
Deskripsi Subjek Berdasarkan Tingkat Umur
No. Tingkat Umur Jumlah Subjek
E. Prosedur Penelitian
Dalam menjalankan penelitian ini, dilakukan beberapa prosedur antara
1. Mengurus perijinan untuk meminjam dan menginput data di Laboratorium
Fakultas Psikologi Sanata Dharma.
2. Melakukan proses input data ke dalam Microsoft Excel
3. Melakukan penghitungan kesukaran item dari hasil input data yang didapat
dengan membagi banyaknya subjek yang menjawab benar dengan
banyaknya subjek yang menjawab item tersebut.
4. Melakukan penghitungan daya diskriminasi dari hasil input data yang
didapat dengan menggunakan SPSS versi 15.
5. Melakukan estimasi reliabilitas dari hasil input data yang didapat dengan
menggunakan SPSS versi 15.
6. Melakukan estimasi validitas dari hasil input data yang didapat dengan
menggunakan SPSS versi 15.
7. Melakukan penghitungan kesesuaian item dengan kriteria usia dengan
metode analisis regresi logistik dengan menggunakan SPSS versi 15.
F. Metode Pengumpulan Data
Dalam penelitian ini peneliti mengumpulkan dan memperoleh data
dengan menggunakan metode dokumentasi. Mengumpulkan data yang
sudah tersedia di Laboratorium Fakultas Psikologi Sanata Dharma.
G. Metode Analisis Data
Setelah semua data dikumpulkan dan diperoleh, kemudian dilakukan
36
dari indeks kesukaran item, indeks daya diskriminasi item, regresi logistik,
melihat estimasi reliabilitas dan validitas Stanford-Binet Intelligence Scale Form L-M.
Untuk menentukan usia yang seharusnya variabel Y berupa dua
respon yakni gagal (dilambangkan dengan nilai 0) dan berhasil (dilambangkan dengan nilai 1). Sedangkan, variabel X adalah usia seluruh subyek. Penghitungan akan dilakukan dengan menggunakan SPSS versi 15. Kemudian, untuk mengetahui usia sebenarnya digunakan penghitungan sebagai berikut:
Keterangan:
= intersep (hasil regresi logistik)
= slope untuk usia
= usia seharusnya
37
BAB IV
HASIL PENELITIAN DAN PEMBAHASAN
A. Orientasi Kancah
Penelitian ini menggunakan data yang merupakan hasil praktikum
Stanford-Binet Intelligence Scale Form L-M mahasiswa Fakultas Psikologi Universitas Sanata Dharma pada tahun 2006, 2007, dan 2008 di
Laboratorium Fakultas Psikologi Universitas Sanata Dharma. Data yang
digunakan pada penelitian ini diambil dari tahun 2006 sampai 2008 karena
data tersebut merupakan data yang paling baru untuk digunakan sebagai
evaluasi Stanford-Binet Intelligence Scale Form L-M.
Stanford-Binet Intelligence Scale Form L-M terdiri dari 20 tingkat umur dan masing-masing tingkat umur terdiri dari 6 soal kecuali pada
tingkat umur Dewasa Rata-rata terdiri dari 8 soal. Tetapi, pada setiap
tingkat umur terdapat 1 soal pengganti yang hanya digunakan jika terjadi
kesalahan prosedur pada penyajian tes. Setiap soal terdiri dari 1 butir soal,
terkadang 2 butir soal, atau terdapat banyak butir soal dalam satu soal.
Total keseluruhan soal yang tersedia berjumlah 173 soal, dan diuraikan
38
Tabel 3.
Deskripsi Subtes Dalam Stanford-Binet Intelligence Scale Form L-M.
No. Tingkat Umur Jumlah Soal
B. Pelaksanaan Penelitian
Hal yang dilakukan dalam melaksanakan penelitian adalah:
1. Mengumpulkan bahan materi serta info yang tersedia untuk mengetahui
pentingnya penelitian dilakukan.
2. Mengurus perijinan di Laboratorium Fakultas Psikologi Universitas
Sanata Dharma untuk menggunakan data yang telah tersedia.
3. Mengatur jadwal pengambilan data di Laboratorium Fakultas Psikologi
Universitas Sanata Dharma.
4. Pelaksanaan dilakukan setelah mendapat perijinan dari Laboratorium
berupa hasil pengetesan oleh mahasiswa Fakultas Psikologi Universitas
Sanata Dharma angkatan 2006 sampai 2008.
5. Melakukan proses pemasukan data dengan menggunakan microsoft
excel, skor dengan tanda (+) diberi nilai 1 dan tanda (-) diberi nilai 0. 6. Data yang digunakan adalah data yang peserta tesnya tidak
menggunakan soal pengganti. Data awal berjumlah 392 hasil tes, 23
hasil tes menggunakan soal pengganti sehingga data yang digunakan
berjumlah 369 hasil tes.
7. Data tersebut kemudian dianalisis dengan SPSS versi 15 untuk
mengetahui kualitas item, reliabilitas, validitas dan regresi logistik.
C. Deskripsi Subyek Penelitian
Subjek penelitian yang digunakan dalam penelitian ini sebanyak 369
orang. Subjek diambil dari seluruh hasil praktikum Stanford-Binet
40
Tabel 4.
Usia Subyek yang Mengikuti Stanford-Binet Intelligence Scale Form L-M
Usia Jumlah Subyek Tingkat Usia
2 tahun 1 II
D. Hasil Penelitian
1. Tingkat Usia III-6
a. Reliabilitas
Perhitungan reliabilitas pada Stanford-Binet Intelligence
Scale Form L-M menggunakan program SPSS 15 dengan metode
α-Cronbach. Koefisien reliabilitas dihitung sebanyak dua kali,
sebelum dan sesudah item digugurkan. Koefisien reliabilitas
sebelum item digugurkan adalah 0,424 dengan jumlah soal
sebanyak 6 soal. Koefisien reliabilitas sesudah item digugurkan
adalah 0,449 dengan jumlah soal sebanyak 4 soal. Hal ini
menunjukkan bahwa tingkat usia III-6 memiliki reliabilitas yang
kurang baik karena tidak memenuhi kriteria. Suatu tes kognitif
dinyatakan reliabel jika koefisien reliabilitasnya ≥ 0,90.
Pengguguran item disarankan untuk dilakukan karena
reliabilitas dapat ditingkatkan lagi apabila item-item yang
disarankan untuk diperbaiki telah diperbaiki dengan baik.
b. Kualitas Item
Kualitas item digunakan untuk menentukan baik dan
buruknya item dalam suatu tes. Kualitas item dapat diketahui
dengan melakukan perhitungan kepada indeks kesukaran item,
indeks daya diskriminasi item, dan koefisien reliabilitas. Kualitas
item dibagi menjadi tiga kategori pemilihan item, antara lain:
1) Kategori item yang ideal, terdiri dari:
a) Koefisien reliabilitas jika item dihapus menurun atau tetap.
b) Indeks kesukaran item berada di antara 0,3 – 0,7 (Allen &
Yen, 1979).
c) Indeks daya diskriminasi item ditentukan dengan korelasi
item total. Dalam hal ini, korelasi item totalnya harus
bernilai positif dan ≥ 0,3 (Azwar, 1999).
2) Kategori item yang disarankan untuk diperbaiki, terdiri dari:
Pada item yang diperbaiki, item minimal memiliki dua syarat
untuk kategori item yang ideal dengan syarat-syarat di bawah
ini:
a) Koefisien reliabilitas jika item dihapus menurun atau tetap.
b) Indeks kesukaran item berada sedikit di bawah atau di atas
42
c) Indeks daya diskriminasi item berada sedikit di bawah 0,3
dengan nilai maksimal 0,25.
3) Kategori item yang disarankan untuk digugurkan, terdiri dari:
a) Item tidak memenuhi minimal dua syarat kategori item
ideal.
b) Item tidak memenuhi syarat untuk kategori item yang
disarankan diperbaiki.
Berdasarkan kategori item yang telah ditentukan di atas, maka
hasil kualitas item tiap soal pada Stanford-Binet Intelligence Scale
Form L-M di tingkat usia IV-6 dapat dilihat pada tabel berikut Tabel 5.
Hasil Kualitas Item Tingkat Usia III-6.
No.
22 0.214 0.442 0.937 Diperbaiki Indeks kesukaran item
23 0.312 0.352 0.986 Diperbaiki Indeks kesukaran item
24 0.430 0.288 0.997 Diperbaiki
Indeks kesukaran item dan indeks diskriminasi item Berdasarkan hasil kualitas item tingkat usia III-6 di atas,
ditemukan tiga kelompok kategori item yang dapat dilihat pada
Tabel 6.
Kelompok Kategori Item Tingkat Usia III-6.
No. Kategori Nomor Item
1 Item yang ideal
2 Item yang disarankan untuk diperbaiki
22, 23, 24.
3 Item yang disarankan untuk digugurkan
19, 20, 21.
Berdasarkan tabel di atas, terdapat tiga kategori item yaitu item
yang ideal, item yang disarankan untuk diperbaiki, dan item yang
disarankan untuk digugurkan. Tidak terdapat item yang masuk
dalam kategori item ideal, terdapat 3 item yang disarankan untuk
diperbaiki dan 3 item yang masuk dalam kategori item disarankan
untuk gugur.
Item yang masuk dalam kategori item yang disarankan untuk
diperbaiki mempunyai kualitas psikometrik yang perlu diperbaiki
pada tiap itemnya. Item 22 dan 23 perlu dilakukan perbaikan dalam
taraf kesukaran itemnya. Indeks kesukaran item yang ideal terletak
diantara 0,3 – 0,7 sedangkan indeks kesukaran item pada tingkat
usia III-6 berkisar diatas 0,9. Hal ini menunjukkan bahwa
item-item tersebut masih berada dalam kategori yang mudah untuk
dikerjakan dan diperbaiki dengan mempersulit soal. Selain itu, pada
item 24 perlu dilakukan perbaikan dalam taraf kesukaran item dan
diskriminasi itemnya. Diperbaiki dengan melihat kesesuaian antara
44
c. Kesesuaian Item dengan Tingkat Usia
Dalam melihat kesesuaian item dengan tingkat usianya
digunakan metode regresi logistik. Tabel berikut menunjukkan
hasil perhitungan pada usia III-6.
Tabel 7.
Nilai Signifikansi Item
No. No. Item B1 S.E Sig.
1 19 1.362 0.520 0.009 2 20 1.258 1.004 0.210 3 21
4 22 17.326 856.733 0.984
5 23 2.626 0.839 0.002 6 24 2.403 1.186 0.043 Berdasarkan hasil perhitungan dengan menggunakan SPSS
versi 15 ditemukan bahwa item 20 dan 22 memiliki nilai
signifikansi diatas 0,05. Maka dapat dikatakan bahwa usia tidak
berkorelasi dengan item-item tersebut. Pada item 23, 19, dan 24
memiliki nilai signifikansi dibawah 0,05, maka usia berkorelasi
dengan item tersebut. Sedangkan, item 21 tidak dapat dihitung
menggunakan regresi logistik dikarenakan tidak memiliki variasi
nilai.
Selain melihat nilai signifikansi item pada tingkat usia III-6,
peneliti juga melihat apakah tiap item masih sesuai dengan tingkat
usia yang ditentukan. Tabel berikut memperlihatkan hasil
Tabel 8.
Kesesuaian Item dengan Tingkat Usia III-6.
No. Item Konstan B1 Usia Seharusnya Tingkat Usia
19 -2.443 1.362 2,014706 II
20 -0.334 1.258 0,504793 21
22 -68.531 17.326 3,972759 IV
23 -7.358 2.626 2,916615 III
24 -4.428 2.403 1,967969 II
Berdasarkan tabel di atas, diketahui bahwa seluruh item tidak
sesuai dengan tingkat usia III-6. Terdapat 2 item yang seharusnya
berada pada tingkat usia II yaitu item 19, dan 24. Item 23
seharusnya berada pada tingkat usia III. Sedangkan, item 22
seharusnya berada pada tingkat usia IV
Tetapi, penghitungan reliabilitas, kualitas psikometrik, dan
regresi logistik ini memiliki hasil yang kurang stabil karena subyek
yang berada pada tingkat usia III-6 hanya berjumlah 46 subyek.
2. Tingkat Usia IV
a. Reliabilitas
Koefisien reliabilitasnya adalah 0,660 dengan jumlah soal
sebanyak 6 soal. Koefisien reliabilitas yang didapat
memperlihatkan bahwa tingkat usia IV memiliki reliabilitas yang
kurang baik karena tidak memenuhi kriteria. Suatu tes kognitif
dinyatakan reliabel jika koefisien reliabilitasnya ≥ 0,90. Koefisien
reliabilitas pada tingkat usia IV dapat ditingkatkan apabila
46
b. Kualitas Item
Berdasarkan kategori item yang telah ditentukan, maka hasil
kualitas item tiap soal pada Stanford-Binet Intelligence Scale Form
L-M di tingkat usia IV dapat dilihat pada tabel berikut Tabel 9.
Hasil Kualitas Item Tingkat Usia IV.
No.
25 0.599 0.441 0.951 Diperbaiki Indeks kesukaran item
26 0.619 0.402 0.981 Diperbaiki Indeks kesukaran item
27 0.558 0.529 0.951 Diperbaiki Indeks kesukaran item
28 0.658 0.265 0.991 Diperbaiki
Indeks kesukaran item dan indeks diskriminasi item
29 0.609 0.500 0.989 Diperbaiki Indeks kesukaran item
30 0.645 0.365 0.937 Diperbaiki Indeks kesukaran item
Berdasarkan hasil kualitas item tingkat usia IV-6 di atas,
ditemukan tiga kelompok kategori item yang dapat dilihat pada
tabel berikut.
Tabel 10.
Kelompok Kategori Item Tingkat Usia IV.
No. Kategori Nomor Item
1 Item yang ideal
2 Item yang disarankan untuk diperbaiki
25, 26, 27, 28, 29. 30.
3 Item yang disarankan untuk digugurkan
Berdasarkan tabel di atas, terdapat tiga kategori item yaitu item
disarankan untuk digugurkan. Tidak terdapat item yang masuk
dalam kategori item ideal, sebanyak 6 item masuk dalam kategori
item yang disarankan untuk diperbaiki, dan tidak terdapat item
yang masuk dalam kategori item disarankan untuk digugurkan.
Item yang masuk dalam kategori item yang disarankan untuk
diperbaiki mempunyai kualitas psikometrik yang perlu diperbaiki
pada tiap itemnya. Item 25, 26, 27, 29 dan 30 perlu dilakukan
perbaikan dalam taraf kesukaran itemnya. Indeks kesukaran item
yang ideal terletak diantara 0,3 – 0,7 sedangkan indeks kesukaran
item pada tingkat usia III-6 berkisar diatas 0,9. Hal ini
menunjukkan bahwa item-item tersebut masih berada dalam
kategori yang mudah untuk dikerjakan dan diperbaiki dengan
mempersulit soal. Sedangkan, pada item 28 perlu dilakukan
perbaikan dalam taraf kesukaran item dan diskriminasi itemnya.
Diperbaiki dengan melihat kesesuaian antara item dengan fungsi
tes dan mempersulit soal.
c. Kesesuaian Item dengan Tingkat Usia
Dalam melihat kesesuaian item dengan tingkat usianya
digunakan metode regresi logistik. Tabel berikut menunjukkan