Bab 1 Hakikat dan Kegunaan Tes Psikolog

(1)

Bab 1 - Hakikat dan Kegunaan Tes Psikologi

Tes-tes pskilogi merupakan alat. Untuk mendapatkan manfaat yang dapat diberikan oleh tes, seseorang perlu terus menerus mengingat hal ini. Para pengguna tes perlu mengetahui cara mengevaluasi tes-tes.

 Penggunaan dan Ragam Tes Psikologi

Secara tradisional, fungsi tes-tes psikologi adalah untuk mengukur perbedaan perbedaan antara individu atau perbedaan reaksi individu yang sama terhadap berbagai situasi yang berbeda. Salah satu masalah awal yang mendorong pertumbuhan tes-tes psikologi adalah identifikasi orang-orang yang terbelakang mental.

Seleksi dan klasifikasi sumber daya manusia untuk bidang industry merupakan penerapan tes psikologis utama yang lain. Penerapan tes psikologis yang nyata dapat ditemukan dalam seleksi klasifikasi personel militer.

Penggunaan tes-tes dalam konseling individu secara bertahap meluas dari bimbingan yang berlingkup sempit menyangkut rencana pendidikan dan pekerjaan sampai terlibatnya semua aspek kehidupan seseorang. Ketentraman emosi dan hubungan-hubungan intrapersonal yang efektif kian lama kian menjadi sasaran utama konseling.

Aneka ragam tes yang dirancang untuk berbagai maksud ini, berbeda juga dalam sifat-sifat utamanya. Tes-tes ini berbeda dalam hal cara pelaksanaannya, seperti dalam tes perorangan atas setiap orang oleh seorang penguji terlatih, tes kelompok-kelompok besar secara bersama-sama, atau penyelenggara tes oleh komputer.

 Apa Tes Psikologis Itu?

Tes psikologis pada dasarnya adalah alat ukur yang objektif dan dibakukan atas sampel perilaku tertentu. Dalam hal ini, psikologi bekerja dengan cara yang sama seperti ahli biokimia yang melakukan tes darah pasien atau suplai air masyarakat dengan menganalisis satu sampel atau lebih dari satu.

Standarisasi. Perlu diingat bahwa dalam definisi awal, tes psikologis digambarkan sebagai alat ukur yang dibakukan. Dalam memberika instruksi, atau menyajikan

masalah-masalah secara lisan, demontrasi awal, cara-cara menjawab menjawab pertanyaan dari peserta tes, dan setiap rincian lain atas situasi tes.

Langkah penting lainnya dalam standarisasi tes adalah penetapan norma-norma. Dalam proses menstandarisasikan tes, tes diselenggarakan pada sampel yang luas dan

representative atas jenis orang yang memang menjadi sasaran perancangan tes tersebut. Norma-norma untuk tes kepribadian pada dasarnya ditetapkan dengan cara yang sama dengan norma-norma pada tes kepribadian.

Pengukur Kesulitan yang Objektif. Penyelenggaraan, penilaian, dan interpretasi skor adalah objektif sejauh skor-skor tak tergantung pada penilaian subjektif penguji tertentu.

Keandalan. Sebaik apakah tes ini? Apakah tes ini benar-benar efektif? Satu satunya cara untuk menjawab pertanyaan-pertanyaan ini secara konklusif adalah lewat

(2)

Validitas. Validitas memberikan pemeriksaan langsung pada sejauh mana tes tertentu memenuhi fungsinya. Penentuan validitas biasanya memerlukan kriteria independen dan eksternal tentang apapun yang menjadi sasaran pengukuran tes tersebut. Dengan

mempelajari data validasi, kita bisa secara objektif menetukan apa yang diukur oleh tes itu.

 Mengapa Penggunaan Tes-tes Psikologi Perlu Dikendalikan?

Penguji yang Memenuhi Syarat. Penguji yang memenuhi syarat, jelas diperlukan dalam setiap aspek utama situasi tes: seleksi tes, administrasi dan penskoran, dan interpretasi skor. Agar tes bisa berfungsi, diperlukan evaluasi atas segi-segi teknis berdasar karakteristik-karakteristik semacam validitas, keandalan, tingkat kesulitan, dan norma.

Peran Pengguna Tes. Pengguna tes adalah siapa pun yang menggunakan skor tes sebagai salah satu sumber informasi dalam usahanya mencapai keputusan-keputusan praktis. Pengguna mungkin adalah penguji atau bukan penguji yang menyelenggarakan dan menskor tes.

Pengamanan Isi Tes dan Pengkomunikasian Informasi Tes. Isi tes dengan jelas harus dibatasi dalam rangka mecegah usaha-usaha yang disengaja untuk memalsukan skor-skor. Memastikan amannya isi tes tertentu tidak perlu dan tidak harus mencapuri pengkomunikasian secara efektif informasi tes itu kepada pengguna tes, professional yang berkepentingan dan public umum.

 Penyelenggaraan Tes

Persiapan Sebelumnya bagi Para Penguji. Persiapan materi tes adalah langkah awal, kemudian syarat lain yang harus dipenuhi adalah kekraban dengan prosedur tes tertentu, baik pada tes perorangan maupun kelompok. Untuk tes perorangan, pelatihan yang diawasi dalam penyelenggaraan tes tertentu amatlah penting.

Kondisi-kondisi Tes. Prosedur yang distandarisasi berlaku tak hanya pada intruksi-intruksi verbal, penentuan waktu, bahan-bahan, dan aspek-aspek tes lainnya, tetapi juga pada lingkungan tes.

Memperkenalkan Tes: Pemahaman dan Orientasi Peserta Tes. Dalam penyelenggaraan tes, “rapor” mengacu pada upaya-upaya penguji membangkitkan minat peserta tes pada tes itu, meningkatkan kerja sama mereka, dan mendorong mereka memberikan respon secara tepat pada sasaran-sasaran tes.

 Penguji dan Variabel-Variabel Situasi

(3)

 Pandangan Dari Sudut Peserta Tes

Kecemasan Tes. Diantara telaah paling dini tentang reaksi-reaksi peserta tes terhadap situasi tes adalah telaah yang berhubungan dengan kecemasan tes. Dalam

penyelenggaraan tes, banyak praktik yang dirancang untuk meningkatkan rapor berfungsi juga mengurangi kecemasan tes.

Sedikit kecemasan memberikan dampak yang baik, sementara kecemasan yang tinggi bersifat membahayakan. Individu-individu yang terbiasa dengan kecemasan rendah bisa mendapatkan manfaat dari kondisi-kondisi tes yang membangkitkan kecemasan, sementara mereka yang terbiasa dengan kecemasan tinggi menunjukan kinerja lebih baik dalam kondisi-kondisi lebih santai.

Penelitian Komprehensif atas Pandangan Peserta Tes. Sejumlah penulis membahas reaksi para pelamar kerja terhadap kejujuran dan tes-tes yang terkait dengan pekerjaan. Beberapa mengemukakan bab cara-cara untuk memerbaiki penyelenggaraan tes dan lingkungan tes, sebagai hasil temuan mereka.

 Dampak Pelatihan Pada Kinerja Tes

Bimbingan. Sebagaimana bisa diharapkan, cakupan perbaikan tergantung pada bakat dan pengalaman pendidikan awal peserta tes, sifat tes, dan jumlah serta jenis bimbingan yang disediakan. Bimbingan dalam pengertian yang sempit dn tradisional, dirancang untuk mengembangkan keterampilan yang amat terbatas yang mungkin sedikit saja berguna dalam aktivitas-aktivitas kehidupan.

KerumitanTes. Dampak dari kerumitan tes, atau praktik mengikuti tes semata-mata juga relevan dalam kaitan ini. Dalam telaah terhadap formulir yang berbeda bagi tes yang sama, ada tendensi bahwa skor kedua akan menjadi lebih tinggi. Perolehan rata-rata yang signifikan telah dilaporkan ketika formulir-formulir yang berbeda diadakan secara berturut turut atau setelah interval yang berkisar dari satu hari sampai tiga tahun.

Pengajaran Keterampilan Kognitif Luas. Sejumlah peniliti telah meneliti pendekatan yang berlawan dengan perbaikan kinerja tes. Sasaran mereka adalah

perkembangan keterampilan intelektual, kebiasaan-kebiasaan kerja, dan strategi-strategi pemecahan masalah yang dapat diterapkan secara luas.

Rangkuman. Kita telah membahas tiga jenis pelatihan pretest yang cukup berbeda sasaran-sasarannya. Bagaimana pengaruh jenis-jenis tes ini pada validitas tes tertentu dan bagaimana kegunaan praktisnya sebagai instrument penilaian? Yang pertama adalah bimbingan, dalam pengertian menghapal secara intensif dan massif hal-hal yang mirip dengan yang ada dalam tes.

 Sumber-Sumber Informasi Tentang Tes

Salah satu sumber penting adalah Mental Measurements Yearbook (MMY) yang didirikan oleh Oscar K. Buros dan disuntingnya pada tahun 1978. Seri buku tahunan ini

mencakup hampir semua tes psikologis, pendidikan, dan kejuruan yang tersedia secara komersial yang diterbitkan dalam bahasa inggris.

(4)

Bab 2 – Riwayat Pendahulu Tes Pendahulu

Tinjauan singkat atas para pendahulu sejarah dan asal-mula tes psikologis akan

memberikan wawasan dan bantuan dalam memahami tes-tes dewasa ini. Arah perkembangan tes psikologi dewasa ini bisa kelihatan lebih jelas bila dipahami dari sudut pandang para pendahulunya.

 Minat Awal Pada Pengklasifikasian dan Pelatihan Orang-orang yang Terbelakang Mental

Abad ke-19 merupakan masa kebangkitan minat pada pengobatan yang lebih manusiawi terhadap orang-orang gila dan mereka yang terbelakang mental. Dalam usaha mengembangkan system untuk mengklasifikasikan tingkat dan jenis keterbelakangan yang berbeda-beda, Esquirol mencoba berbagai prosedur dan menyimpulkan bahwa penggunaan bahasa seseorang merupakan kriteria yang paling dapat diandalkan tentang tingkat

intelektualnya.

 Psikolog-psikolog Ekperimental Pertama

Psikolog-psikolog eksperimental awal dari abad ke-19 pada umumnya tidak peduli dengan pengukuran perbedaan-perbedaan individu. Tujuan utama para psikolog pada masa itu adalah perumusan deskripsi umum tentang perilaku manusia. Fokus perhatian mereka adalah keseragaman, bukannya perbedaan-perbedaan perilaku.

 Sumbangan Francis Galton

Pakar biologi Inggris, Francis Galton, adalah orang yang bertanggung jawab atas peluncuran gerakan tes. Faktor pemersatu dalam berbagai aktivitas penelitian Galton adalah minatnya terhadap terhadap hereditas manusia. Galton membantu mendorong sejumlah lembaga pendidikan menyelenggarakan pencatatan anthropometris pada Internasional

Exposisition 1884 yang dengan membayar tiga penny, para pengunjung bisa diukur ciri-ciri fisik tertentunya dan bisa menjalani tes ketazaman penglihatan dan pendengaran, kekuatan otot, waktu reaksi, dan fungsi-fungsi motor indriawi sederhana lainnya.

 Cattell dan “Tes-tes Mental” Awal

Karya Cattell mempertemukan ilmu psikologi eksperimental yang baru didirikan dan gerakan tes yang baru. Artikel yang ditulis Cattel memaparkan rangkaian tes yang

(5)

 Binet dan Munculnya Tes-tes Kecerdasan

Binet dan rekan-rekan sekerjanya mencurahkan waktu bertahun-tahun untuk penelitian aktif dan sederhana tentang cara-cara pengukuran kecerdasan atau intelegensi. Banyak pendekatan telah dicoba, bahkan mencakup pengukuran bentuk tengkorak, muka, dan tangan, dan analisis atas tulisan. Akan tetapi, hasil-hasilnya menimbulkan keyakinan makin besar bahwa pengukuran yang langsung, meskipun kasar, atas fungsi-fungsi intelektual yang kompleks membawa harapan yang sangat besar. Lalu muncullah situasi tertentu yang memungkinkan usaha-usaha Binet segera menunjukkan hasil-hasil praktis.

 Tes Kelompok

Tes kelompok seperti skala Binet, awalnya dikembangkan untuk memenuhi kebutuhan praktis. Sejumlah tes menuntut pengukuran waktu tanggapan individu. Karena alas an ini dan alas an lainnya, tes-tes seperti ini tidak diadptasikan pada tes kelompok. Ciri khas lain jenis tes Binet ini adalah bahwa tes ini membutuhkan penguji tes yang amat terlatih. Tes-tes seperti ini pada dasarnya adalah instrument-instrumen klinis, yang sesuai untuk telaah mendalam atas kasus-kasus individu.

 Tes Bakat (Aptitude Testing)

Boleh dipastikan tes ini mencakup kemampuan-kemampuan yang amat penting dalam budaya yang menjadi konteks rancangan tes. Namun, sudah disadari bahwa peruntukan yang lebih tepat, dilihat dari segi jenis informasi yang hendak didapat dari tes-tes ini.

Para pengguna tes, dan terutama orang-orang klinik sering memanfaatkan perbedaan-perbedaan semacam itu dalam rangka memeroleh lebih banyak wawasan atas susunan psikologis individu. Jadi, tak hanya IQ atau skor global melainkan juga kinerja pada kelompok soal atau subtes tertentu yang akan diperiksa dalam mengevaluasi masing-masing kasus. Akibatnya, perbedaan yang diperoleh antara skor-skor subtes mungkin terbalik jika individu dites-ulang pada hari yang berbeda atau dengan tes yang sama tapi dalam bentuk lain.

 Tes-tes Prestasi (Achiement Test) Yang Dibakukan

Setelah peralihan abad ini, tes standar pertama untuk mengukur hasil

pengajaran sekolah mulai muncul. Dipelopori oleh karya E.L. Thorndike, tes-tes ini memakai prinsip-prinsip pengukuran yang dikembangan dalam laboratorium psikologis.

Tes-tes prestasi digunakan tidak hanya untuk maksud pendidikan, tetapi juga untuk menyeleksi para pelamar pekerjaan industry dan pemerintahan. Peningkatan upaya untuk mempersiapkan tes-tes prestasi yang akan mengukur pencapaian sasaran pendidikan yang luas, sebagai lawan dari penghapalan rincian-rincian factual, juga membuat isi tes prestasi lebih menyerupai tes inteligensi.

 Penilaian Kepribadian

(6)

Bab 3 – Norma dan Arti Skor Tes

 Konsep-konsep Statistik

Langkah pertama dalam menata kekacauan data kasar adalah mentabulasikan skor-skor ke dalam distribusi frekuensi. Distribusi semacam ini dipersiapkan dengan

mengelompokan skor-skor ke dalam interval kelas yang lebih mudah digunakan dan

menjuruskan (tallying) setiap skor itu ke dalam interval yang cocok. Ketika semua skor telah dimasukkan, turus (tallies) dihitung untuk mendapatkan frekuensi atau atau jumlah kasus dalam setiap interval kelas. Jumlah frekuensi akan sama dengan N, jumlah total kasus-kasus dalam kelompok.

 Norma-norma Perkembangan

Salah satu cara untuk mengartikan skor-skor tes adalah dengan menunjukan sejauh mana individu telat maju sepanjang jalur perkembangan yang normal.

Usia Mental. Istilah “usia mental” dikenal luas lewat penerjemahan dan adaptasi skala-skala Binet-Simon, meskipun Binet sendiri telah menggunakan istilah lebih netral,

“tingkatan mental”. Normal-normal usia mental juga digunakan pada tes-tes yang tidak dibagi-bagi ke sejumlah level tahun. Dalam kasus seperti ini, pertama-tama ditentukan skor mentah si anak. Perlu dicatat bahwa unit usia mental tidak tinggal tetap bersama umur, melainkan cenderung mengerut ketika semakin banyaknya tahun.

Ekuivalen-ekuivalen Kelas (Grade Equivalents). Skor-skor pada tes prestasi pendidikan kerap diinterpretasikan berdasar ekuivalen-ekuivalen kelas. Praktek ini bisa dimengerti karena te-tes ini digunakan dalam lingkungan sekolah. Meskipun popular, norma-norma kelas memiliki berbagai kekurangan. Pertama, isi instruksi agak berbeda dari kelas ke kelas. Karenanya, norma-norma kelas hanya sesuai untuk subjek-subjek umum yang diajarkan sepanjang tingkat-tingkat kelas yang dicakup oleh tes itu.

 Norma-Norma dalam Kelompok

Persentil. Skor-skor persentil diungkapkan berdasarkan persentase orang dalam sampel terstandardisasi yang berada di bawah skor mentah tertentu. Persentil menunjukkan posisi relative individu dalam sampel terstandardisasi. Persentil juga dapat dianggap sebagai peringkat dalam kelompok berisi 100, dengan catatan bahwa dalam penentuan peringkat biasanya orang mulai menghitung dari atas, orang terbaik dalam kelompok itu mendapat peringkat satu.

Skor-skor Standar. Skor skor standar mengungkapkan jarak individu dari rata-rata berdasarkan simpangan baku distribusi. Skor-skor standar bisa diperoleh dengan tranformasi linear atau nonlinear atas skor-skor mentah yang orisinil.

IQ Simpangan. Dalam upaya untuk mengonversikan skor-skor MA ke dalam indeks seragam tentang status relative individu, IQ dimasukkan ke dalam tes-tes intelegensi awal. IQ 100 dengan begitu menggambarkan kinerja normal atau rata-rata. IQ di bawah 100 menunjukkan “keterbelakangan”; (retardation), sedangkan di atas 100 menunjukkan

(7)

Antar-hubungan Skor-skor dalam Kelompok. Pada tahap ini dalam pembicaraan kita tentang skor-skor yang dihasilkan, pembaca bisa menjadi sadar akan persesuaian di antara berbagai tipe skor. Bentuk yang pasti untuk laporan skor amat ditentukan oleh kenyamanan, keakraban, dan kemudahan mengembangkan norma-norma.

 Relativitas Norma-Norma

Perbandingan Antartes. IQ, atau skor lain apa pun, seharusnya selalu disertai dengan nama tes yang dengannya skor itu akan diperoleh. Skor-skor tes tak dapat

diinterpretasikan setepatnya setepatnya secara abstrak; melainkan harus dirujuk pada tes-tes tertentu. Ada tiga alasan utama untuk menerangkan variasi sistematik di antara skor-skor yang didapatkan oleh individu yang sama pada tes-tes yang berbeda.

Pertama, tes-tes bisa berbeda dalam isi meskipun labelnya sama. Kedua, unit-unit skala mungkin bisa tidak dapat dibandingkan. Ketiga, komposisi sampel-sampel standarisasi yang digunakan dalam memantapkan norma-norma untuk berbagai tes bisa berbeda-beda.

Sampel Normatif. Bagaimanapun juga, norma apapun dibatasi pada populasi normative tertentu dari mana norma itu diturunkan. Pengguna tes seharusnya tidak pernah boleh luput dari memahami cara norma itu ditetapkan. Dalam memilih sampel semacam itu, biasanya dilakukan sesuatu untuk mendapat sampel yang representative dari populasi yang untuknya tes itu dirancang.

Norma-norma Spesifik. Pendekatan lain pada nonekuivalensi norma-norma yang ada dan kemungkinan besar merupakan pendekatan yang lebih realistis bagi banyak tes adalah membakukan tes-tes pada populasi yang didefinisikan secara lebih sempit, yang dipilih

sedemikian rupa agar cocok dengan maksud-maksud khusus dari setiap tes. Dengan demikian, norma-norma bisa dianggap berlaku bagi “para pekerja kantoran yang bekerja dalam organisasi-organisasi bisnis yang besar” atau bagi “mahasiswa-mahasiswa teknik tahun pertama”.

Kelompok Rujukan Tetap. Satu jenis skala nonnormatif memanfaatkan kelompok rujukan tetap dalam rangka menjamin komparabilitas dan kontinuitasskor, tanpa memberikan evaluasi normatif atas kinerja. Dengan skala seperti ini, interpretasi normatif menurut rujukan pada norma-norma yang dikumpulkan sendiri-sendiri dari populasi yang sesuai.

Item Response Theory. Ukuran dasar yang digunakan oleh pendekatan-pendekatan ini adalah probabilitas bahwa orang yang memiliki kemampuan khusus (yang disebut ciri laten) berhasil pada suatu butir soal (item) dengan kesulitan tertentu. Akatn tetapi, taka da implikasi bahwa ciri-ciri laten seperta itu atau kemampuan yang mendasari ada dalam arti fisik atau fisiologis, atau ciri-ciri itu menyebabkan perilaku. Ciri-ciri laten adalah konstruktur statistic yang diturunkan secara matematis dari hubungan-hubungan yang diamati secara empiris di antara respons-respons tes. Perkiraan kasar dan awal atas ciri laten peserta ujian adalah skor total yang ia dapatkan pada tes.

 Komputer dan Interpretasi Skor-skor Tes

Perkembangan Tenis. Manfaat yang jelas computer dan yang dikembangkan lebih awal menggambarkan peningkatan yang benar-benar tak bisa diramalkan dalam hal kecepat yang dengannya proses analisis data dan skoring dijalankan.

(8)

individu dengan data tersimpan tentang program pendidikan dan pekerjaan dan menggunakan semua fakta dan hubungan yang relevan dalam menjawab pertanyaan individu dan

membantunya dalam mencapai keputusan.

Bahaya dan Garis-garis Pedoman. Aplikasi computer tentu bisa saja mengarah pada penyalahgunaan dan interpretasi yang salah atas skor-skor tes. Dalam upaya mencegah bahaya-bahaya ini, perhatian perlu diberikan pada pengembangan garis-garis pedoman untuk pengetesan yang berbasis komputer.

Dua dari keprihatinan utama tentang pengetesan terkomputerisasikan

berhubungan dengan komparabilitas skor dan skoring interpretif naratif. Amatlah penting untuk memeriksa komparabilitas skor untuk berbagai individu atau kelompok yang pengalamannya dengan penggunaan komputer dan terutama dengan pengetasan terkomputerisasi, bisa amat berbeda.

 Interpretasi Tes Berujukan Domain

Hakikat dan Penggunaannya. Berbagai istilah alternative umum digunakan, seperti berujukan isi, domain, dan sasaran. Istilah-istilah ini kadang kala digunakaansebgai sinonim untuk pengetesan berujukan kriteria dan kadang kala dengan konotasi yang agak berbeda. Secara bertahap, istilah-istilah yang lebih deskriptif telah menggantikan penamaan “berujukan-kriteria” yang muncul lebih dahulu. Dalam buku ini, istilah “berujukan-domain” yang digunakan untuk maksud ini.

Sejauh ini, aplikasi utama pengetesan berujukan-domain terjadi pada berbagai inovasi dalam bidang pendidikan. Yang menonjol di antara aplikasi ini adalah sistem pengajaran yang didukung komputer, dikelola komputer, dan sistem-sistem pengajaraan yang lebih bersifat perorangan dan dikerjakan sendiri.

Arti Isi. Ciri utama yang khas dari pengetesan berujukan domain adalah

interpretasinya atas kinerja tes dari segi arti isi. Fokusnya jelas pada apa yang dapat dilakukan seorang peserta dan apa yang mereka ketahui, bukan bagaimana mereka dibandingkan dengan orang lain.

Pengetesan Penguasaan (Mastery Testing). Pada dasarnya, prosedur ini menghasilkan skor semua-atau-kosong (all-or-none) mengindikasi bahwa individu telah mencapai atau tidak mencapai tingkat penguasaan yang telah ditetapkan sebelumnya.

Hubungan dengan Pengetesan Berujukan-Norma. Perlu dicatat bahwa pengetesan berujukan-domain bukan hal baru dan juga tidak terpisah sama sekali dari pengetesan berujukan norma, seperti diklaim secara implisit oleh sejumlah pendukungnya.

 Kualifikasi Minimum dan Skor Potong

Kebutuhan-kebutuhan Praktis dan Kesulitan Tersembunyi. Kualifikasi minimum harus dispesifikasikan dan diimplementasikan untuk berbagai maksud dalam hidup sehari-hari. Dalam banyak situasi, pertimbangan keamanan menuntut ditetapkannya skor potong dalam kinerja, sebagaimana dalam pemberian surat izin mengemudi, penyeleksian pilot pesawat terbang, atau penerimaan karyawan untuk bekerja pada reactor nuklir.

(9)

Bab 4 – Reliabilitas

Reabilitas merujuk pada konsistensi skor yang dicapai oleh orang yang sama ketika mereka diuji ulang dengan tes yang sama pada kesempatan berbeda, atau dengan seperangkat butir-butir ekuivalen yang berbeda, atau dalam kondisi pengujian yang berbeda.

 Koefisien Korelasi

Arti Korelasi. Pada dasarnya, koefisien korelasi menyatakan derajat kesesuaian atau hubungan, antara dua perangkat skor. Korelasi nol menunjukan tidak adanya hubungan sama sekali, sebagaimana bisa terjadi karena peluang.

Signifikansi Statistik. Ada prosedur statistic untuk memperkirakan fluktuasi yang mungkin untuk bisa diharapkan dari sampel ke sampel dalam ukuran dari korelasi, rata-rata, simpangan baku, dan ukuran-ukuran kelompok lain mana pun. Selama bertahun-tahun,tingkat signifikansi merupakan cara tradisional untuk mengevaluasi korelasi.

Koefisien Reliabilitas. Koefisien korelasi telah digunakan dalam analisis data psikometrik. Pengukuran reliabilitas tes mewakili satu aplikasi koefisien-koefisien.

 Jenis-jenis Reliabilitas

Reliabilitas Tes-Retes. Metode paling jelas untuk menemukan reliabilitas skor tes ialah dengan mengulang tes yang sama pada kesempatan kedua. Ketika reliabilitas tes-ulang dilaporkan dalam manual tes, interval yang digunakan untuk mengukur reliabilitas itu

seharusnya selalu spesifikasikan. Meskipun tampak sederhana dan blak-blakan, teknik tes dan tes-ulang menampilkan berbagai kesulitan ketika diterapkan pada kebanyakan tes psikologis.

Reliabilitas Bentuk-Alternatif. Meskipun dapan diaplikasikan jauh lebih luas daripada reliabilitas te-retes, reliabilitas bentuk-alternatif juga memiliki keterbatasan tertentu. Pertama, jika fungsi-fungsi perilaku yang sedang diperhatikan tunduk pada efek praktik yang besar, penggunaan bentuk-bentuk alternative akan mengurangi namun tidak menghilangkan efek seperti itu.

Reliabilitas Belah-Separuh (Split-Half Reliability). Dengan cara ini, dua skor didapatkan untuk setiap orang dengan membagi tes menjadi paruhan-paruhan yang

ekuivalen.tampak bahwa reliabilitas belah-separuh merupakan ukuran yang konsisten dalam kaitan dengan sampling isi.

Reliabilitas Kuder-Richardson dan Koefisien Alpha. Konsistensi antarsoal ini dipengaruhi oleh dua sumber varian kesalahan: (1) pencuplikan isi (sebagaimana dalam bentuk-alternatif dan reliabilitas belah-separuh); (2) heterogenitas dari domain perilaku yang

disampelkan.

(10)

Tinjauan. Pemilah –milahan sumber varian adalah esensi dari yang dikenal sebagai teori generalisabilitas tentang reliabilitas. Desain-desain eksperimental kompleks yang yang memungkinkan perkiraan simultan atas banyak sumber varian kesalahan dan interaksi di antara varian-varian kesalahan itu, dapat ditemukan pada karya yang lebih rinci tentang topic tersebut.

 Reliabilitas Tes Yang Dipercepat

Tes kecepatan yang murni adalah tes yang perbedaan individu tergantung sepenuhnya pada kecepatan kinerja. Perlu dicatat bahwa baik tes kecepatan maupun kekuatan dirancang untuk mencegah pencapaian skor-skor sempurna. Kapan dan pada kondisi apa tes benar-benar dipercepat? Yang jelas, penerapan batas waktu saja tidak menjadi tanda sebuah tes kecepatan. Jika semua peserta tes selesai dalam batas waktu yang diberikan, kecepatan kerja tidak memainkan peranan dalam menentukan skor. Presentase orang yang gagal menyelesaikan tes bisa dianggap sebagai indeks kasar kecepatan versus kemampuan.

 Ketergantungan Koefisien-koefisien Reliabilitas Pada Sampel Yang DIuji

Variabilitas.seperti semua koefisien korelasi, koefisien reliabilitas tergantung pada variabilitas sampel dimana koefisien itu ditemukan. Jadi, jika koefisien reliabilitas yang dilaporkan dalam pegangan tes dikalkulasikan untuk sebuah kelompok yang merentang dari anak kelas empat sampai pelajar sekolah menengah atas, tak dapat diasumsikan bahwa reliabilitas akan sama tingginya di dalam, katakanlah, sampel kelas delapan.

Tingkat Kemampuan. Kooefisien reliabilitas tidak hanya bervariasi pada rentang perbedaan individu dalam sampel, tetapi juga bervariasi antara kelompok-kelompok yang berbeda dalam tingkat kempuan rata-rata. Lagi pula, perbedaan-perbedaan ini biasanya tidak dapat diprediksi atau diestimasi dengan rumus statistic apa pun, tetapi dapat ditemukan hanya dengan uji coba empris tes itu pada kelompok yang berbeda dalam tingkat usia atau

kemampuan.

 Kesalahan Standar Pengukuran

Interpretasi Skor-skor Individu. Reliabilitas sebuah tes bisa diungkapkan dalam istilah kesalahan standar pengukuran yang juga disebut kesalahan standar sebuah skor. Kesalahan standar pengukuran dan koefisien reliabilitas jelas merupakan cara-cara alternative untuk mengungkapkan reliabilitas tes.

Interpretasi Perbedaan Skor. Berfikir dalam lingkup kisaran dimana tiap skor bisa berfluktuasi, berfungsi sebagai alatperiksa terhadap penekanan berlebihan pada perbedaan-perbedaan kecil antara skor-skor. Sikap hati-hati seperti ini perlu ada, baik bila membandingkan skor tes dari orang yang berbeda maupun ketika membandingkan skor individu yang sama dalam kemampuan yang berbeda.

 Reliabilitas Diterapkan Pada Tes Penguasaan dan Skor Potong

(11)

Bab 5 – Validitas: Konsep-konsep Dasar

Validitas tes menyangkut apa yang diukur tes dan seberapa baik tes itu bisa mengukur. Validitas tes memberi tahu kita tentang apa yang bisa kitasimpulkan dari skor-skor tes.

 Konsep-konsep Validitas Tes Yang Berkembang

Fungsi tes pada awalnya antara lain dalam mengukur apa yang telah dipelajari individu dalam area tertentu. Jenis tes yang umumnya disebut tes prestasi ini, lazimnya

dievaluasi dengan membandingkan isi dengan domain isi yang memang dirancang untuk dinilai. Begitu tes memasuki tahap kedua, penekanannya bergeser pada prediksi. Prosedur ini terutama tepat untuk penggunaan tes dalam seleksi atau penempatan individu pada program-program pendidikan, jabatan, atau program tertentu lainnya. Tahap sekarang dalam sejarah tes

mencerminkan dua kecendrungan utama : (1) orientasi teoritis yang makin kuat dan (2) hubungan yang erat antara teori psikologis dan verifikasi melalui tes hipotesis secara empiris dan eksperimental.

 Prosedur Deskripsi- Isi

Hakikat. Prosedur validasi deskripsi-isi pada dasarnya melibatkan pengujian sistematik atau isi tes untuk menentukan apakah tes itu mencakup sampel representative dari domain perilaku yang harus diukur.

Prosedur Spesifik. Berdasarkan informasi yang terkumpul, spesifikasi tes disusun untuk para penulis soal. Spesifikasi-spesifikasi ini seharusnya menunjukan bidang isi atau topic-topik yang dicakup, sasaran-sasaran atau proses-proses pengajaran yang harus di tes dan pentingnya topik-topik serta proses individu. Spesifikasi-spesifikasi ini seharusnya menunjukan jumlah tiap jenis item yang dipersiapkan untuk masing-masing topic.

Aplikasi. Terutama bila ditunjang oleh alat periksa empiris seperti yang sudah digambarkan, validasi isi memberikan teknik yang memadai untuk mengevaluasi tes-tes prestasi.

Validitas Nominal. Pada dasarnya, pertanyaan tentang validitas nominal

menyangkut rapor dan hubungan masyarakat (humas). Meskipun penggunaan istilah “validitas” dalam kaitan ini bisa menimbulkang kebingungan, validitas tampang itu sendiri merupksn ciri tes yang di senangi. Selain itu diperlukan juga validitas tampang agar bisa berfungsi secara efektif dalam situasi praktis. Validitas tampang juga memengaruhi penerimaan tes tersebut dalam keputusan legislative dan perundangan, dan juga penilaian oleh masyarakat umum.

 Prosedur-prosedur Prediksi-Kriteria

Validasi Konkuren dan Validasi Prediktif. Informasi yang disediakan oleh validasi prediktif paling relevan bagi tes-tes yang digunakan dalam seleksi dan klasifikasi personel. Vallidasi konkuren digunakan semata-mata sebagai pengganti validasi prediktif. Kerap

(12)

kelompok yang menjadi sumber data kriteria. Dengan demikian, skor-skor tes mahasiswa bisa dibandingkan dengan indeks prestasi kumulatif mereka pada saat pengetesan, atau skor tes karyawan dengan sukses pekerjaan mereka sekarang ini.

Kontaminasi Kriteria. Sumber kesalahan potensial dalam validasi tes ini dikenal sebagai kontaminasi kriteria, karena peringkat kriteria menjadi “terkontaminasi” oleh

pengetahuan pemeringkat terhadap skor-skor tes.

Ukuran-ukuran Krieria. Indeks-indeks khusus yang digunakkan sebagai ukuran kriteria mencakup nilai sekolah, skor tes prestasi, promosi dan catatan kelulusan, penghargaan dan hadiah khusus, serta peringkat guru ataupun pengajar untuk “inteligensi”. Dalam kaitan dengan penggunaan catatan-catatan pelatihan sebagai ukuran-ukuran kriteria, sebuah pembedaan yang berguna adalah pembedaan antara kriteria menengah dan kriteria puncak.

Generalisasi Validitas. Validitas prediksi-kriteria kerap digunakan dalam studi-studi validasi local, dimana efektivitas sebuah tes untuk program tertentu harus dinilai. Ini adalah pendekatan yang diikuti, misalnya ketika sebuah perusahaan ingin mengevaluasi tes untuk menyeleksi para pelamar kerja di perusahaannya atau ketika sebuah perguruan tinggi ingin menentukan bagaimana tes bakat akademik dapat memprediksi kinerja mata kuliah mahasiswa-mahasiswanya.

Meta-Analisis. Meta-analisis mendapat perhatian yang makin besar dalam psikologi sebagai pengganti untuk survei literature tradisional. Dengan memadukan temuan-temuan itu sejauh mungkin berdasarkan segi-segi metodologis dan substantive yang relevan dari masing-masing telaah, meta-analisis bisa menyingkapkan temuan positif yang penting. Manfaatnya lebih jauh adalah bahwa meta-analisis memungkinkan penghitungan ukuran-ukuran efek.

 Prosedur-prosedur Identifikasi Konstruk

Validitas konstruk sebuah tes adalah lingkup sejauh mana tes bisa dikatakan mengukur suatu konstruk atau sifat teoritis. Tiap konstruk dikembangkan untuk menjelaskan dan mengorganisasi konsistensi-konsistensi respons yang diamati.

Perubahan-perubahan perkembangan. Tes-tes seperti Standford-Binet dan kebanyakan tes prasekolah dicocokan dengan usia kronologis untuk menentukan apakah skor-skornya menunjukkan peningkatan secara bersamaan dengan peningkatan usia. Karena kemampuan seseorang diharapkan untuk meningkat bersama selama usia selama masa kanak-kanak, ada pendapat bahwa skor tes seharusnya juga menunjukkan peningkatan, jika tesnya valid.

Korelasi dengan Tes-tes Lainnya. Korelasi antara tes baru dengan te-tes sebelumnya yang serupa kadang kala disebut sebagai bukti bahwa tes baru mengukur bidang perilaku yang hampir sama dengan tes lain yang diberi nama sama, seperti “tes inteligensi” atau “tes bakat/kemampuan mekanis”.

Analisis Faktor. Tujuan utama analisis faktor adalah menyederhanakan deskripsi perilaku dengan meredukasi jumlah kategori dari banyak variabel tes pada awalnya ke beberapa faktor atau sifat umum.

Konsistensi Internal. Tampak bahwa korelasi konsisten internal, entah didasarkan pada butir-butir soal entah sub-subtes, pada hakikatnya merupakan ukuran-ukuran

(13)

sampel oleh tes, derajat homogenitas sebuah tes memiliki relevansi tertentu dengan validitas konstruknya.

Validasi Konvergen dan Diskriminasi. Dalam suatu analisis penuh pertimbangan atas validasi konstruk, D. T. Campbell (1960) menunjukkan bahwa, dalam rangka menunjukkan validitas konstruk, kita harus menunjukkan bukan hanya tes berkorelasi tinggi dengan variabel-variabel lain sebagaimana seharusnya secara teoritis, tetapi juga ia tidak berkorelasi secara signifikan dengan variabel-variabel yang memang berbeda dari tes tersebut.

Intervensi Eksperimental. Dalam memeriksa validitas te untuk digunakan dalam program pengajaran yang dibuat khusus untuk individu, misalnya, salah satu pendekatan adalah melalui perbandingan antara skor pretest dan posttest. Dasar pemikiran dari tes semacam itu mengandaikan skor rendah pada pretest, yang diadakan sesuai instruksi yang relevan, dan skor tinggi pada posttest.

Pemodelan Persamaan Struktural. Pemodelan persamaan structural

memberikan cara-cara menghindari kesulitan-kesulitan semacam itu. Pada dasarnya, modeling persamaan structural melakukan hal itu dengan menggunakan persamaan regresi untuk memprediksi variabel dpenden dari variabel independe dalam model cross-lagged atau model kausal lainnya.

Kontribusi dari Psikologi Kognitif. Pendekatan ini dengan jelas memusatkan perhatian pada proses-proses respons, sangat berbeda dengan cara sebelumnya yang lebih memerhatikan hasil akhir pikiran dalam riset psikometris. Menganalisis kinerja tes dari segi proses kognitif tertentu tentu saja bisa memperkuat dan memperluas pengertian kita tentang apa yang diukur oleh tes tersebut.

 Tinjauan dan Integrasi

Perbandingan Prosedur Validasi. Untuk menunjukan segi-segi kekhasan dari prosedur-prosedur validasi yang berbeda, mari kita terapkan masing-masing prosedur ini pada sebuah tes yang terdiri dari butir-butir soal aritmetik campuran. Empat cara di mana tes ini bisa digunakan, bersama dengan jenis prosedur validasi yang tepat untuk masing-masing.

Perbandingan Prosedur Validasi. Semua teknik spesifik untuk analisis isi untuk mengukur hubungan-hubungan kriteria. Validitas terhadap berbagai kriteria praktis umum dilaporkan dalam manual tes untuk membantu penggunaan dalam memahami apa yang diukur oleh tes tersebut.

Validasi dalam Proses Penyusunan Tes. Proses validasi dimulai dengan

memformulasikan ciri terinci atau definisi konstruk, yang berasal dari teori psikologi, penelitian sebelumnya, atau observasi sistematik dan analisis atas domain perilaku yang relevan.

(14)

Bab 6 – Validitas: Pengukuran dan Interpretasi

 Koefisien Validitas dan Kesalahan Penilain

Kondisi-kondisi yang Memengurahi Koefisien Validitas. Orang-orang dengan latar belakang pengelaman yang berbeda, misalnya, bisa memanfaatkan metode-metode kerja yang berbeda-beda untuk memecahkan masalah tes yang sama. Koefisien validitas juga bisa berubah sepanjang waktu tertentu karena perubahan standar seleksi. Agar bisa melakukan interpretasi yang tepat atas koefisien validitas, kita harus memperhatikan bentuk hubungan antara test dan kriteria.

Besaran Koefisien Validitas. Sebelum menarik kesimpulan apapun tentang validitas test, kita seharusnya cukup yakin bahwa koefisien validitas yang diperoleh itu tidak bisa muncul melalui fluktuasi pengambilan sampel secara kebetulan dari korelasi populasi nol. Perlu diingat bahwa kesalahan pengukuran menunjukan marjin kesalahan yang harus diharapkan dalam sebuah skor individu sebagai hasil dari tidak dapat diandalkannya test itu.

 Validitas Test dan Teori Keputusan

Pendekatan Dasar. Dalam menetapkan skor potong pada sebuah test, perhatian seharusnya diberikan pada persentase penolakan salah, seperti halnya pada persentase sukses dan kegagalan di dalam kelompok terpilih. Dalam situasi tertentu, skor potong seharusnya cukup tinggi untuk menyingkirkan semua hal kecuali beberapa kegagalan yang mungkin terjadi. Ini akan menjadi masalah bila pekerjaan itu bersifat sedemikian rupa sehingga pekerja yang punya kualifikasi buruk bisa menyebabkan kerugian ataupun kerusakan yang serius.

Prediksi Hasil. Informasi yang diperlukan mencakup koefisien validitas test, proporsi pelamar yang harus diterima (rasio seleksi) dan proporsi pelamar-pelamar yang sukses tanpa penggunaan test (angka dasar). Sebuah perubahan dan ketiga kondisi ini dapat mengubah efisiensi prediktif test.

Hubungan Validitas pada Produktivitas. Dalam banyak situasi praktis, yang diinginkan adalah suatu penilaian atas efek test seleksi, bukan pada persentase orang-orang yang melebihi kinerja minimum, melainkan pada produktivitas keseluruhan orang yang dipilih. Brogden (1946b) pertama-tama menunjukkan bahwa peningkatan yang diharapkan dalam output secara langsung sebanding dengan validitas test.

Konsep Utulitas dalam Teori Keputusan. Merupakan ciri dari teori keputusan bahwa test-test dievaluasi dalam kaitan dengan efektivitasnya pada situasi tertentu. Evaluasi semacam itu tidak hanya mempertimbangkan validitas test ini dalam memprediksi kriteria tertentu, tetapi juga sejumlah parameter lainnya, termasuk angka dasar dan rasio seleksi. Dalam memilih suatu strategi keputusan, sasarannya adalah memaksimalkan kegunaan yang

diharapkan pada semua hasil.

Strategi Berurutan dan Penanganan Adaptif. Test-test bisa digunakan untuk mengambil keputusan berurutan daripada keputusan akhir. Strategi lain, yang sesuai dengan diagnosis gangguan-gangguan psikologis, adalah penggunaan dua kategori saja, tetapi untuk menguji lebih jauh semua kasus yang digolongkan sebagai kasus positif (yakni memiliki

(15)

keputusan personel pada dasarnya merupakan keputusan berurutan, meskipun tidak kelihatan seperti itu.

Variabel-variabel Moderator. Minat dan motivasi bisa berfungsi sebagai variabel moderator. Satu temuan yang relative konsisten adalah perbedaan jenis kelamin dalam

kemampuan untuk memprediksi nilai-nilai akademis. Perlu dicatat bahwa perbedaan jenis kelamin dalam koefisien validitas ini, meskipun agak konsisten pada umumnya kecil.

 Memdukan Informasi dari Berbagai Macam Test.

Bila sejumlah test yang terpilih secara khusus digunakan bersama untuk

memprediksi kriteria tunggal, test-test tersebut dikenal sebagai kumpulan test. Masalah utama yang muncul dalam penggunaan kumpulan test semacam itu menyangkut cara dimana skor pada test yang berbeda dipadukan untuk sampai pada keputusan yang menyangkut masing-masing individu. Ada dua jenis utama prosedur yang ditempuh untuk maksud ini, yaitu persamaan multi regresi dan analisis profil.

Persamaan Regresi Majemuk. Menghasilakan skor kriteria terprediksi untuk masing-masing individu berdasarkan skor pada semua test dalam kumpulan test. Validitas keseluruhan kumpulan test dapat diperoleh dengan menghitung korelasi (R) antara kriteria dengan kumpulan testnya. Korelasi ini menunjukkan nilai prediktif yang paling tinngi yang dapat diperoleh dari kumpulan test tadi, apabila setiap test diberi bobot optimum untuk memprediksi kriteria yang dipertanyakan.

 Penggunaan Test untuk Klasifikasi Keputusan.

Hakikat Klasifikasi. Klasifikasi, dipihak lain selalu melibatkan dua atau lebih kriteria. Dalam situasi militer misalnya, klasifikasi adalah problem utama karena masing-masing individu dalam kelompok karyawan harus ditugaskan pada bagian militer dimana ia bisa

berfungsi paling efektif. Keputusan klasifikasi juga diperlurkan dalam industry, ketika karyawan baru ditugaskan pada program-program pelatihan untuk berbagai jenis pekerjaan.

Validitas Diferensial. Sasaran kumpulan test semacam itu adalah memprediksi perbedaan-perbedaan dalam kinerja masing-masing orang pada dua atau lebih pekerjaan, program pelatihan, atau situasi kriteria lainnya. Prosedur-prosedur statistic telah dikembangkan untuk menyeleksi test test sedemikian rupa sehingga memaksimalisasi validitas diferensial klasifikasi kumpulan test. Dalam praktiknya, untuk mendekati sasaran yang diinginkan, bisa digunakan berbagai pendekatan empiris.

Fungsi Diskriminan Majemuk. Sebuah cara alternative untuk menangani keputusan klasifikasi adalah dengan saran fungsi diskriminan majemuk. Fungsi diskriminan ini juga tepat ketika ada hubungan non linear antara kriteria dan satu atau lebih predictor.

(16)

 Analisis Statistik Terhadap Bias Test

Masalahnya. Pemecahan yang lebih baik adalah memilih isi yang relevan dengan Kriteria dan kemudia menyeleksi perbedaan-perbedaan populasi yang mungkin dalam

efektifitas test untuk masuk yang memang dikehendaki. Koefisien validitas, bobot regresi, dan skor-skor potong bisa bervariasi sebagai perbedaan fungsi dalam latar belakang pengalaman peserta test.

Bias Lereng (Slope Bias). Dalam telaah-telaah validitas diferensial, satu kesulitan umum muncul dari kenyataan bahwa jumlah kasus dalam sampel minoritas kerap jauh lebih kecil daripada dalam sampel mayoritas. Dalam kondisi ini, koefisien validitas yang sama bisa bermakna (signifikan) secara statistic dalam sampel mayoritas dan tidak signifikan dalam sampel minoritas (yang disebut validitas kelompok tunggal).

Bias Intersepsi. Test menunjukan bias intersepsi jik secara sistematis test itu memprediksi terlalu tinggi atau terlalu rendah kinerja kriteria untuk kelompok tertentu.

Masalah bias intersepsi berhubungan paling erat dengan fairness test. Meskipun istilah fairness test dan bias test kadang kala digunakan secara luas dan bisa saling dipertukarkan untuk

meliputi semua aspek penggunaan test dengan minoritas kultural, telah lazim untuk mengidentifikasi fairness test (atau sebaliknya) dengan bias intersepsi.

(17)

BAB 7 – Analisis Butir Soal

Analisis butir soal memungkinkan kita memperpendek tes dan pada saat yang sama meningkatkan validitas dan reabilitasnya. Asal semua hal lain sama, tes yang lebih panjang lebih valid dan lebih dapat diandalkan daripada tes yang pendek.

 Kesulitan Butir Soal

Persentase Kelulusan. Untuk kebanyakan tujuan pengetesan, kesulita butir soal dirumuskan dalam kaitan dengan presentase (proporsi) orang-orang yang

menjawabnya dengan benar. Semakin mudah butir soal, semakin besarlah presentasenya. Dalam proses penyusunan tes, alasan utama untuk mengukur kesulitan butir soal adalah memilih butir soal dengan tingkat kesulitan yang sesuai. Kebanyakan tes kemampuan baku untuk menilai seakurat mungkin tingkat pencapaian individu dalam kemampuan tertentu.

Skala-skala Interval. Presentase orang-orang yang lulus pada suatu butir soal mengungkapkan kesulitan butir soal dalam kaitan dengan skala ordinal; dengan kata lain, presentase itu dengan benar menunjukkan urutan peringkat atau kesulitan relatif butir-butir soal.

Penentuan Skala Absolut Thurstone. Indeks kesulitan butir soal yang diungkapkan sebagai persentase atau unit-unit kurva normal dibatasi oleh rentang kemampuan yang dicakup oleh sampel yang dari mana indeks-indeks itu berasal. Prosedur statistik ini yang dikenal sebagai penentu skala absolute, dikembangkan oleh Thurstone (1925, 1947) dan telah digunakan secara luas dalam pengembangan tes. Dengan demikian tes-tes yang dirancang dengan tujuan penyaringan seharusnya memanfaatkan butir-butir soal yang nilai kesulitannya paling mendekati rasio seleksi yang dikehendaki.

Distribusi Skor-skor Tes. Jika sampel standarisasi adalah cross-section representative dari populasi tersebut, maka umumnya diharapkan bahwa secara kasar skor-skornya akan masuk dalam kurva distribusi normal. Ketika sampel standardisasi menghasilkan distribusi nonnormal yang cukup mencolok pada sebuah tes, tingkat kesulitan tes ini biasanya dimodifikasi sampai dicapai sebuah kurva normal.

Mengaitkan Kesulitan Butir Soal dengan Tujuan Pengetesan. Dalam penyusunan tes untuk bermacam-macam tujuan, pilihan atas kesulitan butir soal yang tepat, seperti halnya juga bentuk optimal distribusi skor-skor tes, tergantung pada jenis diskriminasi yang dicari. Dengan demikian, tes-tes yang dirancang dengan tujuan penyaringan seharusnya memanfaatkan butir-butir soalyang nilai kesulitannya paling mendekati rasio seleksi yang dikehendaki.

 Diskriminasi Butir Soal

(18)

pengetesan, kompromi yang memuaskan adalah memilah-milah butir-butir soal yang relatif homogen ke dalam tes atau subtes yang berbeda, yang masing-masing mencakup dari kriteria eksternal.

Indeks Statistik Diskriminasi Butir Soal. Karena respons-respons butir soal umumnya, direkam sebagai hal yang salah atau benar, pengukuran diskriminasi butir soal biasanya melibatkan variabel dikotomis (butir soal) dan variabel kontinu (kriteria).

Penggunaan Kelompok-kelompok Ekstrem. Ketika kriterianya diukur sepanjang skala yang kontinu, seperti dalam kasus nilai-nilai mata kuliah, peringkat pekerjaan, catatan-catatan keluaran, atau skor total pada tes, kelompok kriteria atas (U = upper) dan bawah (L = lower) diseleksi dari ekstrem-ekstrem distribusi. Yang jelas, semakin ekstrem kelompok itu, semakin tajam diferensiasinya.

Analisis Sederhana dengan Kelompok-kelompok Kecil. contohnya analisis butir soal siswa-siswa yang mengikuti kuis di kelas untuk mengidentifikasi kekurangan-kekurangan dalam tes atau dalam pengajaran.

Indeks Diskriminasi. Jika jumlah orang yang bisa mengerjakan tiap butir soal dalam kelompok kriteria U dan L dinyatakan dalam persentase, perbedaan antara dua persentase ini memberikan sebuah indeks diskriminasi butir soal yang bisa diinterpretasikan secara independen dari ukuran sampel tertentu dimana sampel itu didapatkan.

 Teori Respons Butir Soal

Regresi Butir Soal-Tes. Baik kesulitan butir soal maupun diskriminasi butir soal bisa di representasikan secara serentak dalam grafik regresi butir soal tes. Kekuatan

diskriminatif masing-masing butir soal diidikasikan dengan keterjalan kurva itu: semakin terjalnya kurvanya, semakin tinggi korelasi kinerja butir soal dengan skor total dan semakin tinggi indeks diskriminasinya.

Teori Respons Soal: Segi-segi Dasar. Pendekatan matematis yang sedang kita bahasa dalah teori respons butir soal telah diberi nama teori sifat laten dan teori kurva karakteristik butir soal ICC (Item Characteristic Curve). Kurva karakteristik butir soal dibagankan dari fungsi yang diturunkan secara matematis bukan dari data empiris yang digunakan dalam kurva regresi butir soal tes.

Model-model IRT yang berbeda menggunakan fungsi-fungsi matematis yang berbeda, didasarkan pada berbagai perangkat asumsi. Sejumlah model menggunakan fungsi-fungsi lengkung normal (yakni distribusi normal kumulatif), yang lain menggunakan fungsi-fungsi logistik, yang memanfaatkan sejumlah ciri hubungan logaritmik yang mudah secara matematis. Pada umumnya, hasil yang diperoleh dengan berbagai model itu pada dasarnya sama, asalkan asumsi itu ada dalam situasi tertentu.

 Analisis Butir Soal atas Tes-Tes yang Dipercepat

(19)

Kesulitan yang dihadapi dalam analisi butir soal dari tes yang dipercepat pada dasarnya sama dengan yang dibicarakan dalam bab 4 berkaitan dengan reliabilitas tes-tes yang dipercepat. Berbagai solusi, baik empiris maupun statistik telah dikembangkan untuk memecahkan kesulitan-kesulitan ini. Satu solusi empiris adalah menjalankan tes dengan batas waktu yang lama pada kelompok dimana analisis butir soal akan dijalankan. Solusi ini

memuaskan asalkan kecepatan itu sendiri bukan aspek penting dari kemampuan yang hendak diukur oleh tes itu.

 Validasi-Silang

Arti validasi-silang. Penting bahwa validitas tes dihitung berdasarkan pada sampel orang yang berbeda dari sampel dimana butir-butir soal itu di seleksi. Determinasi independen validitas kesuluruhan tes ini dikenal sebagai validasi silang. Koefisien validitas apapun yang dihitung berdasarkan sampel yang sama, yang digunakan untuk maksud seleksi. Jumlah penyusutan koefisien validitas dalam validasi-silang tergantung sebagain pada ukuran kelompok butir soal asli dan proporsi butir-butir soal yang dipertahankan.

 Pemfungsian Butir Soal Diferensial

Tak ada satu “metode terbaik” analisis butir soal yang berlaku untuk semua tujuan. Karena berbagai metode yang berbeda memberikan jenis informasi yang berbeda, lebih baik menggunakan kombinasi metode-metode. Umumnya, kombinasi terbaik mencangkup prosedur statistik dan prosedur penilaian tertentu.

 Eksplorasi dalam Pengembangan Soal

(20)

Bab 8 – Tes-tes Individu

 Skala Inteligensi Standford Binet

Tes Stanford-Binet merupakan tes inteligensi yang paling populer di dunia dan seringkali digunakan sebagai standar untuk menguji validitas tes inteligensi lain yang dikembangkan setelahnya. Tes Stanford-Binet edisi tahun 1916 memiliki banyak kelemahan sehingga dilakukan revisi pada tahun 1937, yang menghasilkan dua format yang paralel (L dan M). Revisi berikutnya dilakukan pada tahun 1960 dan kemudian distandardisasi pada tahun 1972 sehingga mencakup norma-norma yang memadai bagi populasi masyarakat Amerika saat itu. Skala Binet edisi keempat disusun pada tahun 1986. Penyusunnya berusaha untuk

mempertahankan kelebihan edisi sebelumnya sebagai tes inteligensi individual, ditambah dengan kelebihan tambahan dari perkembangan teori dan riset terbaru dalam psikologi kognitif. Selain itu, pada edisi revisi keempat ini ditambahkan variasi lainnya, khususnya jenis tes

nonverbal.

Edisi keempat terdiri dari 15 jenis tes yang berbeda yang mencakup empat area: (1) verbal reasoning, (2) abstract/visual reasoning, (3) quantitative reasoning, dan (4) short-term memory. Sebagian dari kelimabelas jenis tes tersebut dapat digunakan untuk segala umur, dan sebagian lainnya hanya dapat digunakan untuk umur-umur tertentu. Sebagaimana edisi sebelumnya, pada tes edisi 1986, testi diberikan tugas-tugas yang sesuai dengan kemampuannya.

Edisi keempat ini telah distandardisasi dengan lebih dari 5000 orang dari seluruh Amerika Serikat yang di dalamnya telah mewakili sampel berdasarkan gender, umur, kelompok etnis, dan masyarakat luas. Reliabilitas konsistensi internal tes secara keseluruhan sangat tinggi (di atas . 95), begitu pula reliabilitas masing-masing area kognitif (di atas .93). Uji reliabilitas dengan metode test-retest terhadap bagian-bagian tes dan tes secara keseluruhan menunjukkan hasil yang lebih tinggi bagi testi usia dewasa. Penyusun tes Binet juga telah menguji validitas edisi keempat ini dengan menggunakan (1) validitas konstruk terhadap penelitian terkini dalam bidang inteligensi kognitif, (2) konsistensi internal dan metode analisis faktor, dan (3) uji korelasi dengan tes inteligensi lain.

Skala Wechsler

 Wechsler-Bellevue Intelligence Scale (WBIS)

(21)

 Wechsler Adult Intelligence Scale (WAIS)

o Skala pada tahun 1939, yaitu Wechsler-Bellevue Intelligence (WBIS) telah direvisi pada 1955 untuk memperbaiki beberapa kekurangan yang ditemukan dalam bentuk tes sebelumnya dan berubah menjadi Wechsler Adult

Intelligence Scale (WAIS) (Wechsler dalam Hood & Johnson, 1993). Tes ini telah di-standardisasi pada suatu sampel yang dipilih untuk mencocokkan proporsi populasi di Amerika Serikat berdasarkan ras, tingkat pekerjaan, pendidikan, dan tempat tinggal pada sensus tahun 1970 dan dibagikan pada tingkat umur 16 sampai 74 tahun.

 Wechsler-Intelligence Scale for Children (WISC-R)

o WISC-R sebenarnya dikembangkan sebagai turunan perluasan dari WBIS yang digunakan pada anak-anak umur 6 tahun sampai 16 tahun. Wechsler (Hood & Johnson, 1993) menyatakan WISC-R direvisi pada 1974 untuk memuat lebih banyak item berorientasi anak, untuk menyertakan lebih banyak orang kulit hitam dan tokoh-tokoh wanita, dan untuk menyediakan sebuah sampel normatif yang mewakili populasi anak-anak di Amerika Serikat.

 Wechsler Preschool and Primary Scale of Intelligence (WPPSI)

o Pada 1967, sebuah turunan perluasan dari WISC-R telah dikembangkan untuk digunakan pada anak umur 4 sampai 61/2 tahun yang disebut dengan

Wechsler Preschool and Primary Scale of Intelligence (WPPSI) dan direvisi menjadi WPPSI-R pada 1989 (Wechsler dalam Hood & Johnson, 1993). WPPSI-R ini memasukkan 11 subtes yang mana 10 dari 11 digunakan untuk memperoleh skor IQ.

 Skala Kaufman

Skala Kaufman adalah instrument klinis yang diseenggarakan secara individu, yang dirancang untuk banyak penggunaan sebagaimana juga dimaksudkan oleh tes-tes semacam Standford-Binetdan skala Wechsler yang telah dikembangkan secara traditional (Kaufman & Kaufman, 1983a, 1983b, 1990,1993).

Ada 3 jenis Skala Kaufman :

 Kaufman Assessment Battery for Children (K-ABC)

o Tes kemampuan kognitif yang dilaksanakan secara individual untuk anak-anak dan remaja untuk usia 3-18. tujuan untuk mengurangi perbedaan skor antara anak-anak dari kelompok etnis dan budaya yang berbeda.

 Kaufman Adolenscent and Adult Intelegence Test (KAIT)

o KAIT dirancang sebagai pengukuran inteligensi untuk usia 11 tahun hingga 85 tahun atau lebih tua. Tes ini untuk mengintegrasikan teori tentang inteligensi cair dan Kristal yang diartikulasikan oleh Horn dan Cattel (1966) dengan gagasan tentang inteligensi orang dewasa yang dikemukakan dalam teori lain.  Kaufman Brief Intelligence (K-BIT)

(22)

 Skala Cryztallized atau verbal yang memiliki dua jenis soal (pengetahuan verbal dan teka-teki).

 Skala Non Verbal atau Fluid yang mencakup soal-soal matriks.

 Skala Kemampuan Diferensial

Differential Ability Scales (DAS) dirancang terutama untuk mengukur kemampuan-kemampuan tertentu dengan reliabilitas memadai, dan juga membantu dengan tujuan-tujuan lebih kompleks dari penilaian individual, yaitu diagnosis diferensial dan

perencanaan penanganan. Pilihan tugas-tugas yang dicakup dalam kumpulan tes itu mengacu pada dasar pemikiran teoritis maupun empiris. Dalam penyelenggaraan DAS yang

(23)

Bab 9 – Tes-tes Untuk Populasi Khusus

 Pengetesan Bayi dan Anak-Anak Prasekolah

Banyak dari tes-tes ini menyangkut perkembangan sensori-motorik, seperti didemonstrasikan oleh kemampuan bayi seperti mengangkat kepala, berbalik, meraih, memegang objek, dan mengikuti objek yang bergerak dengan matanya. Pengetesan prasekolah adalah proses yang jauh lebih antarpribadi dari segi yang menambah, baik kesempatan maupun kesulitan yang disajikan oleh situasi tes.

 Tes-Tes yang Dibakukan untuk Perkembangan Masa Kanak-Kanak Awal

 Skala-Skala Bayley untuk Perkembangan Bayi

Skala-Skala Bayley-II memberikan tiga alat Komplementer untuk menilai status perkembangan anak di antara umur 1 bulan dan 3,5 tahun: mental scale, motor scale, dan behavior rating scale. Scala Mental mengambil sampel misalnya, ketajaman sensorik dan perceptual, memori, proses belajar, pemecahan masalah, vokalisasi, permulaan vokalisasi verbal, dll. Skala motor melakukan pengukuran kemampuan motorik yang besar, misalnya duduk, berdiri, berjalan, menaiki tangga. Skala peringkat perilaku dirancang untuk menaksir berbagai aspek perkembangan kepribadian, seperti perilaku emosional dan sosial, rentang dan pembangkitan perhatian, ketekunan, dan keterarahan pada sasaran.

 Skala-Skala Piagetian

Skala-skala ini dirancang untuk menilai pencapaian kemampuan kognitif antara umur 2 minggu dan 2 tahun. Umur-umur ini mencangkup apa yang oleh Piaget dicirikan sebagai masa sensorimotorik yang terdapat enam tingkat. Rangkaian ini mencangkup enak skala yang dinamakan yaitu;

1. Permanensi Objek.

2. Perkembangan Sarana untuk mencapai tujuan lingkungan yang disukai. 3. Imitasi.

4. Kausalitas Operasional.

5. Hubungan-hubungan Objek dalam Ruangan. 6. Perkembangan Skemata.

 Mengetes Penyandang Cacat Jasmani

 Kerusakan Pendengaran

Pengetesan pada anak-anak tunarungu adalah sasaran primer dalam pengembangan skala kinerja paling awal. Adaptasi khusus skala-skala Wechsler kerap digunakan dalam mengetes para tunarungu. Kebanyakan tes verbal bisa diselenggarakan jika pertanyaan-pertanyaan lisan diketik pada kartu. Pada kenyataannya, WISC-R Performance Scale merupakan tes inteligensi yang telah digunakan secara luas untuk anak-anak dengan kerusakan pendengaran di AS.

 Kerusakan Penglihatan

(24)

diadaptasi untuk peserta tes yang buta. Adaptasi ini pada dasarnya menggunakan tes-tes verbal dan menghilangkan tes-tes kinerja.

 Kerusakan Motorik

Sejumlah ketidakmampuan motorik yang parah ditemukan di antara orang-orang dengan cerebral palsy. Jenis tes lain yang memungkinkan penggunaan respons dengan

menunjuk adalah tes kosakata bergambar. Tes-tes ini memberikan ukuran cepat atas kosakata “penggunaannya” yang membuat tes-tes itu dapat diterapkan, terutama pada orang-orang yang tidak mampu membuat vokalisasi dengan baik (seperti mereka dengan cerebral palsy).

 Pengetesan Multikultural

Pengetesan lintas-budaya atau multikultural menyoroti peran penting yang dimainkan oleh pola asuh orang tua dan lingkungan rumah tangga dalam perkembangan intelektual seorang anak yang sedang tumbuh. Sekarang juga diakui bahwa perbedaan

lingkungan semacam itu tidak terbatas pada populasi etnis atau budaya yang dengan jelas dapat diindentifikasi, tetapi bisa sangat mempengaruhi perkembangan psikologis pribadi

(25)

Bab 10 – Tes Kelompok

Tes kelompok digunakan terutama dalam system pendidikan, pegawai negeri, industru dan dinas militer, Pengetesan missal dmulai selama PD I yang dikembangkan oleh Army Alpha dan Army Beta untuk digunakan dalam Angkatan Bersenjata AS.

Armed Forces Qualification Test (AFQT) dikembangkan sebagai alat penyaringan utama, disusul kemampuan tes klasifikasi multikecerdasan untuk menilai bidang keahlian jabatan. Armed Services Vocational Aptitude Battery (ASVAB) masih dikembangkan untuk bisa digunakan dalam semua dinas militer sebagai seleksi gabungan dan kumpulan tes klasifikasi. ASVAB berfungsi sebagai komponen kualifikasi umum untuk kualifikasi personal, masing-masing jabatan menyeleksi dan menggabungkan subtes supaya sesai dengan kebutuhan khusus satu jabatan tertentu.

 Tes Kelompok Versus Tes Individu

Perbedaan Khusus dalam Rancangan Tes. Tes kelompokharus berbeda dari tes individu dalam hal bentuk ataupun susunan butir soal. Perbedaan pokok tes kelompok dan tes individu adalah dalam hal control atas kesulitan soal. Dalam tes individu, penguji mengikuti aturan penerimaan peserta, aturan dasar (basic rules) dan arutan plafon (ceiling rules) untuk memastikan bahwa setiap peserta tes diuji dengan soal yang sesuai dengan tingkat kemampuannya. Dalam tes kelompok, soal dengan isi (content) yang sama diatur sesuai dengan tingkatan kesulitan dalam tes yang diukut secara terpisah berdasarkan waktu (timed).

Keuntungan dari Pengetesan Kelompok. Tes kelompok dirancang terutama sebagai alat untuk pengetesan missal. Tes kelompok memiliki keuntungan yang diselenggarakan secara stimultan bagi sebanyak mungkin orang yang benar-benar bisa disesuaikan dengan ruang yang tersedia dan jangkauan suara microfon. Cara kedua adalah memudahkan pengetesan missal karena tes ini benar-benar menyederhanakan peran penguji.

Kerugian dari Pengetesan Kelompok. Dalam pengetesan kelompok, penguji memiliki peluang yang jauh lebih kecil untuk berhubunganm bekerja sama dan mempertahankan minat peserta tes. Orang yang tidak terbiasa dengan pengetesan akan leih mengalami rintangan pada pengetesan kelompok ketimbang pengetesan individu. Tes kelompok telah di serang karena keterbatasan pada jawaban peserta tes. Kurangnya kelenturan, sejauh setiap peserta tes secara teratur dites pada semua soal, waktu pengetesan yang teserdia dapat digunakan dengan lebih efektif jika setiap peserta tes berkonsentrasi pada soal yang sesuai dengan kemampuannya.

 Pengetesan Secara Adaptif dan Administrasi Tes Menggunakan Komputer

Tes-Tes yang Disusun secara Individu. Dalam upaya menggabungkan beberapa keuntungan pengetesan kelompok dan individu ini, beberapa pengetesan telah dijelajahi. Minat lebih dikembangkan pada cara menyesuaikan liputan soal terhadap

(26)

Pengetesan secara Adaptif yang Terkomputerisasi (CAT Computerized Adaptive Testing). Prosedur CAT memanfaatkan teknik IRT (item response theory) yang digambarkan untuk menyusunkan kumpulan soal, mengetes individu dan menskoring kinerja individu, untuk masing-masing butir soal dalam kelompok, ada perkiraan kemampuan yang dituntut untuk mendapatkan peluang 50-50 supaya bisa lulus.

 Kumpulan Tes Multilevel

Tinjauan. Harus meliputi rentang kesulitan yang relative terbatas, cocok untuk usia, tahap atau tingkat kemampuan tertentu, supaya bisa memberikan ukuran yang sebanding dari perkembangan intelektual selama rentang yang luas seri dari kumpulan res multilevel yang berumpang tindih telah dikonstruksikan.

Kumpulan Tes yang Representatif. Kumpulan tes ini dipilih berdasarkan resensi dari revisi terakhir mereka, mutu yang tinggi dari prosedur konsruksi tes mereka dan ukuran serta kerepresentatifan sampel baku mereka. Korelasi retes tinggi menunjukan stabilitas yang memuaskan, korelasi dengan tingkatan sekolah dan dengan tes prestasi menunjukan validitas prediktif yang baik. Interkorelasi antar skor bagian, juga analisis faktorial

menyingkapkan satu faktor umum yang luas melalui masing-masing kumpulan tes total.

Isi Tes yang Umum pada Level yang Berbeda. Pada usia prasekolah, pengetesan secara individu diperlukan untuk membuat dan mengelola rapor, demikian pula penyelenggaraan tes dengan soal-soal tipe oral dan kinerja sesuai untuk anak seusia itu. Tes kelompok unuk level pertama umumnya meliputi taman kanak-kanak dan kelas satu atau dua sekolah dasar. Tes untuk level sekolah dasar dari kelas tiga atau emapt keatas mempunyai banyak hal yang sama baik dalam isi (content) maupun dalam rancangan umum. Level lebih tinggi dari kumpulan tes multilevel, cocok untuk pelajar sekolah menengah.

Pengenalan atas Multibakat. Ada satu kecenderungan besar untuk menjembatani kesenjangan awal antara pengetesan secara keseluruhan, kemampuan umum dan pengukuran terhadap bakat-bakat terpisah yang relative independen. Dalam OLSAT (1996) ditunjuk bahwa skor total sendiri terbatas pada sekelompok bakat “pendidikan verbal”,

kumpulan tes ridak ditunjukkan untuk mengukur segmen “praktik mekanik: dari inteligensi umum.

 Mengenal Multi Bakat

Tes inteligensi tradisional, dilakukan secara individu atau kelompok dirancang terutama untuk menghasilkan ukuran global tunggal dari tingkat perkembangan kognitif individu secara umum seperti IQ, akan tetapi baik perkembangan praktis maupun teoritis, menarik perhatian ke bakat khusus tertentu.

(27)

Kumpulan Tes Bakat Multidimensional. Tes bakat multidimensional (Multidimensional Aptitude Battery : MAB) adalah tes kelomok yang dirancang untuk menilai bakat-bakt yang sama seperti Wechsler Adult Intelligence Scale-Revised (WAIS-R) yang

(28)

Bab 11 – Hakikat Inteligensi

 Arti IQ

IQ tidak sma dengan jenis skor pada tes tertentu, tetapi kerap dipandang sebagai singkatan untuk inteligensi. Tes inteligensi berbeda, yang menghasilkan IQ yang berbeda dalam isi dan cara yang memengaruhi interpretasi skor mereka.

Pertama, inteligensi yang dites seharusnya dipandang sebagai konsip yang deskriptif lebih daripada konsep yang eksplanatoris. IQ adalah ekspresi dari tingkat kemampuan individu pada saat tertentu dalam hubungan dengan norma usia tertentu. Kedua, inteligensi bukan

kemampuan tunggal dan seragam, tetapi komposit dari berbagai fungsi. Istilah umm digunakan untuk mencakup gabungan kemampuan yang diperlukan dalam budaya tertentu.

 Heritabilitas Dan Modifiabilitas

Indeks-indek heritabilitas telah dihitung dengan berbagai rumus, tetapi data dasar mereka adalah pengukuran kesamaan familial dalam ciri yang sedang disoroti. Berbagai hal harus diperhatikan dalam menginterpretasikan perkiraan heritabilitas. Pertama, data empiris dalam kesamaan familial tunduk pada distorsi karena kontribusi factor-faktor lingkungan yang tidak diperkirakan. Kedua, indeks-indeks heritabilitas merujuk pada populasi di mana heritabilitas itu ditemukan pada waktunya. Ketiga, heritabilitas tidak menunjukan derajat modifiabilitas sifat.

 Motivasi Dan Inteligensi

Salah satu cara dimana motivasi dan variabel-variabel afektif lainnya busa memberikan sumbangan pada perkembangan bakat adalah melalui jumlah waktu yang

diluangkan individu pada aktivitas tertentu relative terhadap aktivitas-aktivitas lain yang bersaing menuntut perhatian. Motivasi memengaruhi efisiensi pelaksanaan tugas dan waktu yang diluangkan pada tugas itu, relative pada aktivitas-aktivitas lain.

Hubungan antara kepribadian dan intelektualitas bersifat resiprokal. Cirri-ciri kepribadian tidak hanya memengaruhi perkembangan intelektual, tetapi tingkat intelektual juga bisa

memengaruhi perkembangan kepribadian.

 Analisis Faktor Atas Inteligensi

Riset psikologis tentang identifikasi sifat mental tumbuh dari minat dalam hakikat dan komposisi inteligensi manusia. Penelitin semacam ini mulai dengan antar korelasi skor-skor yang didapatkan dengan sampel orang-orang pada berbagai tes kemampuan.

(29)

Sumbu-Sumbu Referensi. Posisi sumbu referensi tidak ditetapkan oleh data. Tabel korelasi yang original hanya menentukan posisi tes dalam kaitan satu sama lain. Untuk alas an in, para analis factor biasanya merotasikan sumbu-sumbu sampai mereka mendapatkan pola yang paling memuaskan dan mudah diinterpretasikan.

Interpretasi Faktor-Faktor. Sekali matriks factor yang dirotasi dihitung, kita bisa maju dengan interpretasi dan penamaan factor. Langkah ini membutuhkan wawasan psikologis daripada keterampilan statistic. Untuk mempelajari hakikat factor particular, kita semata-semata memeriksa tes bersangkutan memiliki pemuatan tinggi pada factor itu dan berusama menemukan proses psikologis apa yang umumnya ada pada tes tersebut.

Kompoisi Faktorial Tes. Salah satu teorema dasar analisis factor menyatakan bahwa varian total seuah tes adalah umlah varian yang disumbangkan daktor umum dan factor yang spesifik, plus varian kesalahan.

Pemuatan Faktor dan Korelasi. Teorema dasar kedua analisis factor menyangkut hubungan antara pemuatan factor dan korelasi antara variable. Karena factor spesifik dan factor kesalahan itu unik bagi tiap variabel, factor itu tidak dapat memberikan sumbangan pada korelasi antar variable. Korelasi antara dua variabel apapun tergantung hanya pada factor yang dimiliki bersama oleh dua variabel ini. Samakin besar bobot factor-faktor umum ini dalam kedua variabel itu, semakin tinggilah korelasi antar variabel.

Sumbu-Sumbu Miring dan Faktor-Faktor Tingkat-Dua. Sumbu

orthogonal adalah sumbu pada sudut yang tepat satu sama lain. Kelompok tes ada dalam situasi sedemikian rupa sehingga kesesuaian yang lebih baik dapat dicapai dengan sumbu-sumbu miring. Para psikologis Inggris mulai dengan factor umum yang mereka anggap menyebabkan porsi utama varian umum, kemudian kembali pada factor kelompok untuk menerangkan korelasi yang tersisa. Perbedaan procedural ini mencerminkan perbedaan.

 Teori-teori Organisasi Sifat

Teori Dua-Faktor. Teori pertama tentang organisasi sifat yang didasarkan pada analisis statistic atas skor-skor tes adalah teori dua factor yang dikembangknoleh seorang psikolog Inggris, Charles Spearman. Teori ini mempertahankan bahwa semua aktivitas

intelektual bersama-sama memiliki satu factor umum atau yang bisa disebut factor g. konsekuensi adalah tujuan tes psikologi seharusnya untuk mengukr jumlah g masing-masing individu. Jika factor ini melintasi semua kemampuan, factor ini melengkapi satu-satunya basis untuk prediksi kinerja individu dari satu situasi ke situasi lain.

(30)

Model Struktur Intelek. Berdasarkan riset analisis factor selama lebih dari dua dasawarsa, Guilford mengusulkan model bentuk kubus yang ia sebut model struktur intelek (SI). Model ini yang mengklasifikasikan sifat-sifat intelektual menurut tiga dimensi, yaitu : Operasi, Isi dan Produk. Karena klasifikasi ini maliputi kategori-kategori 6 x 5 x 6 ada 180 sel dalam model ini.

Teori-Teori Hierarki. Skema alternative untukorganisasi factor-faktor diusulkan oleh sejumlah psikolog Inggris, termasuk di dalamnya Burt (1949) dan Vernon (1960) dan Humphreys (1962) di Amerika Serikat. Pada bagian puncaknya, Vernon menempatkan factor g Spearman. Pada tingkat berikutnya ada dua factor kelompok yang luas yang sesuai dengan kemampuan verbal-edukasional dan dengan kemampuan praktis-mekanis.

 Hakikat Dan Perkembangan Sifat-sifat

Sejarah Pengalaman. Peran sejarah pengalaman individu dalam

perkembangan inteligensi dan pembentkan actor kelompok semakin diterima. Perbedaan dalam pola factor telah ditemukan berkaitan dengan kultur atau subkultur, tingkat social ekonomi dan tiper kurikulum sekolah.

Mekanisme Pembentukan Sifat. Mekanisme untuk munculnya factor disediakan oleh konsep yang sudah dikenal tentang paket belajar dan alih pelatihan. Sumber utama lainnya dari pembentukan sifat adalah hubungan atau kemunculan bersama pengalaman belajar.

Analisis Faktor dan Analisis Tugas Faktor Kognitif. Analisis protocol dimana individu diarahkan untuk berpikir keras ketika menyelesaikan masalah atau menjalankan tugas intelektual, memberikan pendekatan yang menjanjikan terhadap analisis atas pikiran manusia.

Inteligensi Umum. Riset analisis factor pada intelgensi tidak hanya

(31)

Bab 12 - Persoalan Psikologis dalam Pengetesan Kemampuan

 Telaah Longitudina Atas Inteligensi Anak-anak

Stabilitas Kinerja Tes Inteligensi. Sebuah kumpulan data ekstensif yang telah berakumulasi memperlihatkan bahwam selama periode sekolah dasar, sekolah menengah dan perguruan tinggi kinterja tes inteligensi cukup stabil.satu penjelasan terhadap

meningkatnya stabilitas skor tes inteligensi sesuai usia diberikan oleh sifat kumulatif dari perkembangan intelektual.

Instabilitas dari Kinerja Tes Inteligensi. Telaah korelasi atas skor tes memberikan data actual yang dapat diaplikasikan oada prediksi kelompok, karena alasan tersebut, skor-skor cenderung stabil dalam arti actuarial ini. Kenaikan dan kemerosotan tajam bisa terjadi sebagai akibat dari perubahan lingkungan yang besar dalam kehidupan anak.

 Inteligensi Dalam Masa Kanak-kanak Awal

Validitas Prediktif dari Tes Bayi dan Prasekolah. Tes-tes prasekolah memiliki validitas yang moderat dalam meramalkan kinerja tes inteligensi berikutnya, namun tes terhadap bayi justru tidak. Kekurangan daru validitias prediktif jangka panjang dari tes terhadap bati dievaluasi lebih lanjut sehubungan dengn temuan-temuan terkait lainnya.

Implikasi atas Program Intervensi. Efektivitas dari berbagai program intervensi era Head Start yang sudah didemonstrasikan, tergantng pada mutu program tertentu. Dirancang terutama ntuk meningkatkan kesiapan akademik anak-anak dari latar belakang yang tidak menguntungkan. Program-program ini sangat bervariasi dalam prosedur dan hasil.

 Masalah Dalam Melakukan Tes Inteligensi Pada Orang Dewasa

Penurunan Akibat Pertambahan Usia. Ciri khas yang diperkenalkan oleh skala Wechsler untuk mengukur inteligensi orang dewasa adalah oenggunaan norma mundur untuk menghitung simpangan IQ. Skor mentah pada subtes WAIS pertama diolah ke dalam skor baku dengan rata-rata 10 dan simpangan baku 3.

Telaah Longitudinal Seattle (The Seattle Longitudinal Study SLS).

Program riset jangka panjang yang terencana baik yang menggunakan rancangan cross-sequential adalah Seattle Longitudinal Study. Mulai tahun 1956 para penyelidik melaksanakan suatu kumpulan tes kemampuan pada sebuah sampel acak yang dibagi atas tingkatan-tingkatan.

Perbedaan Individual dan Usia. Selain temuan dasar bahwa penurunan akibat pertambahan usia lebih kecil dan selama hidup muncul belakangan dibanfing perkiran sebelumnya, riset terbaru umumnya menyingkapkan perbedaan individual yang besar dalam kemampuan pada semua level usia. Generalisasi apa saja harus dikualifikasikan oleh pengakuan akan variabilitas individual yang ditemukan dalam semua situasi.

Hakikat Inteligensi Orang Dewasa. Tes inteligensi tradisional telah diorientasikan, terutama kea rah anak sekolah dan mahasiswa perguruan tinggi. Pada level ini, penyusun tes dapat mendekati kumpulan besar pengalaman umum yang telah diorgaisasikan ke dalam kurikulum akademik.

 Perubahan Populasi Dalam Kinerja Tes Inteligensi