i
ANALISIS KEBERFUNGSIAN AITEM HETEROSEKSUAL EDWARDS PERSONAL PREFERENCE SCHEDULE (EPPS) PADA REMAJA
SKRIPSI
Diajukan Untuk Memenuhi Persyaratan Ujian Sarjana Psikologi
Oleh:
ROMAULI MARTANIA SIREGAR 141301043
FAKULTAS PSIKOLOGI UNIVERSITAS SUMATERA UTARA
MEDAN 2021
▸ Baca selengkapnya: epps psikotes
(2)ii
i
ANALISIS KEBERFUNGSIAN AITEM HETEROSEKSUAL EDWARDS PERSONAL PREFERENCE SCHEDULE (EPPS) PADA REMAJA
Romauli Martania Siregar dan Dina Nazriani Fakultas Psikologi Universitas Sumatera Utara
ABSTRAK
Edwards Personal Preference Schedule (EPPS) merupakan salah satu alat tes kepribadian yang dikonstrak untuk mengukur manifestasi kebutuhan dalam diri individu. Salah satu kebutuhan yang diukur dalam EPPS adalah heteroseksual.
Berbicara mengenai seksualitas adalah hal yang tabu di Indonesia, khususnya pada kalangan remaja. Penelitian ini bertujuan untuk melihat keberfungsian aitem kebutuhan heteroseksual EPPS pada remaja. Oleh sebab itu, dilakukan sebuah pengujian terhadap aitem-aitem kebutuhan heteroseksual EPPS menggunakan metode Rasch. Dalam kajian ilmu psikologi khususnya kajian psikometri, analisis keberfungsian aitem dapat dilihat melalui uji validitas, reliabilitas dan uji keberfungsian aitem yang berbeda (Differential Item Functioning). Subjek dalam penelitian ini adalah 100 orang remaja SMA berusia 15-18 tahun, dengan rincian 52 orang perempuan dan 48 orang laki-laki. Hasil penelitian ini menunjukkan terdapat 1 aitem yang terdeteksi DIF jenis kelamin dengan nilai prob sebesar 0.0415. Melalui hasil uji validitas berdasarkan struktur internal, terdapat satu aitem yang tidak memenuhi kriteria model pengukuran ideal. Hasil analisis reliabilitas Alpha Cronbach menunjukkan interaksi antara person dan aitem secara keseluruhan memiliki kualitas yang buruk (r = 0,33), reliabilitas aitem terpercaya untuk mengukur kebutuhan heteroseksual (r = 0,80), reliabilitas person menunjukkan konsistensi jawaban responden lemah (r = 0,38).
Kata Kunci : Edwards Personal Preference Schedule (EPPS), Differential Item Functioning (DIF), heteroseksual, remaja.
ii
FUNCTIONING ANALYSIS OF HETEROSEXUAL ITEMS EDWARDS PERSONAL PREFERENCE SCHEDULE (EPPS) IN ADOLESCENTS
Romauli Martania Siregar and Dina Nazriani Faculty of Psychology University of North Sumatera
ABSTRACT
Edwards Personal Preference Schedule (EPPS) is a personality test that is constructed to measure the manifestation of needs in individuals. One of the needs measured in the EPPS is heterosexual. Talking about sexuality is taboo in Indonesia, especially among adolescents. This study aims to determine the functionality of the EPPS heterosexual item need in adolescents. Therefore, a test for heterosexual EPPS items needs using the Rasch method. In the study of psychology, especially psychometric studies, analysis of item function can be seen through testing the validity, reliability and testing of the Differential Item Functioning (DIF). Subjects in this study were 100 high school adolescents aged 15-18 years, 52 girls and 48 boys. The results of this study indicate that there is 1 item detected by gender DIF with a prob value of 0.0415. Through the results of the validity test based on the internal structure, there is one item that does not meet the criteria for the ideal measurement model. The results of the Cronbach Alpha reliability analysis showed that the interaction between person and item as a whole was of poor quality (r = 0.33), the reliability of the item was reliable to measure heterosexual needs (r = 0.80), the reliability of person showed consistency of respondents' answers was weak (r = 0.38).
Keywords: Edwards Personal Preference Schedule (EPPS), Differential Item Functioning (DIF), heterosexual, adolescents.
iii
KATA PENGANTAR
Puji dan syukur penulis ucapkan kepada Tuhan Yang Maha Esa atas segala berkat, kebaikan dan penyertaan-Nya bagi penulis dalam menjalani proses yang cukup panjang hingga akhirnya skripsi ini boleh terselesaikan. Adapun skripsi ini berjudul “Analisis Keberfungsian Aitem Heteroseksual Edwards Personal Preference Schedule (EPPS) pada Remaja”, yang merupakan salah satu persyaratan dalam memperoleh gelar sarjana jenjang strata satu (S-1) di Fakultas Psikologi Universitas Sumatera Utara.
Penulis juga berterima kasih yang sebesar-besarnya kepada orang tua penulis, yaitu alm. Bapak Jintar Siregar (ayah) dan Ibu Lasma Pardede (ibu), yang telah berjuang dalam merawat, mendidik, memberi motivasi dan mendukung, serta memenuhi kebutuhan peneliti, hingga peneliti dapat menyelesaikan studi.
Penulis juga mengucapkan terima kasih kepada pihak-pihak yang telah memberikan perhatian, dukungan, semangat dan doa serta bantuan dalam setiap proses penyusunan skripsi ini, khususnya kepada:
1. Bapak Zulkarnain, Ph.D, Psikolog, selaku Dekan Fakultas Psikologi Universitas Sumatera Utara.
2. Kak Dina Nazriani, MA., selaku dosen pembimbing skripsi yang dengan sabar dan rendah hati bersedia memberikan waktunya untuk berdiskusi, membimbing, serta mengarahkan saya untuk menulis dan menyelesaikan skripsi ini.
iv
3. Ibu Etti Rahmawati, M. Si, selaku dosen pembimbing akademik yang selalu membimbing, memberikan perhatian, serta mendukung saya selama menjalani perkuliahan di Fakultas Psikologi Universitas Sumatera Utara.
4. Ibu Ika Sari Dewi, M.Pd., Psikolog dan kak Suri Mutia Siregar, M.Psi., Psikolog selaku dosen penguji yang telah bersedia memberikan waktunya untuk memberikan masukan dan arahan terkait penulisan dan hasil skripsi.
5. Bapak/Ibu dosen Fakultas Psikologi Universitas Sumatera Utara yang telah membagikan ilmunya kepada saya selama masa perkuliahan.
6. Pihak sekolah dan siswa-siswi SMA Dharma Pancasila Medan, yang bersedia membantu saya selama proses pengambilan data penelitian.
7. Keluarga peneliti, terkhusus untuk kakak, abang dan adik. Kak Reni Farida, Bang Johan Frenky, Kak Juliana, Kak Nani Rohana, dan adik Melinda Veronika. Abang Ipar peneliti, Bang Rikson Manalu dan Bang Sahnan Purba. Kakak Sepupu Sinitta Ella, Lia Yanti, Winda, Tri Utami, serta keluarga besar peneliti yang telah memberikan doa dan dukungan yang tiada henti.
8. Keponakan peneliti, Rainhard Nathanael Purba, Stefano Yehezkhiel Purba, Debora Selomitha Purba, Joy Alleysia Manalu, yang selalu memberikan keceriaan dan menjadi semangat tersendiri bagi peneliti.
9. Sahabat-sahabat peneliti TS (Sri Mahati, Fitria, Wahyuni, Florencia, Siti Halida Lubis, Mahdad, Nelly), serta Suku 64 (Kukun, Rosma, Sri, dan Dorma), yang selalu menemani dan mendukung saya sejak awal kuliah hingga menyelesaikan skripsi ini.
v
10. KTB Belicia (Kak Friska Pontoria, Sri, Fitria, Grace, Jonathan, Suryanto, Harley), KK Eleanor (Esther, Cahaya, Tamariska, dan Neforius), KK Bonaventura (Sari, Pupu, dan Fatima), terima kasih untuk doa dan semangat yang diberikan kepada saya.
11. Sahabat-sahabat KKN Nias Utara (Kakak-Adik), Selly, Elicana, Fitria, Siti Halida yang selalu memberikan perhatian dan motivasi.
12. Seluruh teman-teman Psikologi USU 2014 dan seluruh teman seperjuangan bimbingan skripsi Departemen Umum dan Eksperimen.
13. Pelayanan UKM KMK USU UP Psikologi, PMK-TPPM Perkantas Medan periode 2020, Persekutuan P3KS, yang telah memberikan dukungan doa.
14. Segala pihak yang tidak dapat disebutkan satu per satu yang telah memberikan bantuan kepada penulis dalam menyelesaikan tugas akhir.
Penulis menyadari bahwa masih banyak kekurangan dalam penulisan skripsi ini, sehingga penulis mengharapkan masukan dan saran dari berbagai pihak guna perbaikan dan penyempurnaan penelitian ke depannya. Semoga skripsi ini dapat bermanfaat bagi pihak yang membaca.
Medan, 09 April 2021
Romauli Martania Siregar
141301043
vi
DAFTAR ISI
KATA PENGANTAR ... iii
DAFTAR ISI ... vi
DAFTAR TABEL ... x
DAFTAR LAMPIRAN ... xi
BAB I PENDAHULUAN A. Latar Belakang ... 1
B. Identifikasi Masalah ... 10
C. Rumusan Masalah ... 10
D. Tujuan Penelitian ... 10
E. Manfaat Penelitian ... 10
1. Manfaat Teoritis ... 10
2. Manfaat Praktis ... 11
F. Sistematika Penulisan ... 11
BAB II LANDASAN TEORI A. Analisis Karakteristik Psikometri ... 13
1. Validitas ... 13
a. Pengertian Validitas ... 13
b. Sumber Bukti Validitas ... 15
c. Faktor-Faktor yang mempengaruhi Validitas... 24
d. Interpretasi Koefisien Validitas ... 26
2. Reliabilitas ... 27
vii
a. Pengertian Reliabilitas ... 27
b. Metode Pengujian Reliabilitas ... 29
1. Metode Tes Ulang ... 29
2. Metode Bentuk Paralel ... 30
3. Metode Konsistensi Internal ... 31
c. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas ... 34
1. Homogenitas Kelompok ... 34
2. Batasan Waktu dalam Tes ... 34
3. Panjang Tes ... 35
B. Differential Item Functioning (DIF) ... 39
a. Definisi Differential Item Functioning (DIF) ... 39
b. Jenis- jenis Differential Item Functioning (DIF) ... 41
c. Metode Analisis Differential Item Functioning (DIF) ... 41
d. Sumber Differential Item Functioning (DIF) ... 42
C. Edwards Personal Prefence Schedule (EPPS) ... 42
a. Sejarah Edwards Personal Prefence Schedule (EPPS)... 42
b. Pengertian Edwards Personal Prefence Schedule (EPPS) ... 43
c. Manifestasi Kebutuhan Edwards Personal Prefence Schedule (EPPS) ... 44
D. Remaja ... 49
a. Pengertian Remaja ... 49
b. Tugas perkembangan Remaja ... 51
c. Tahap Perkembangan Seksual Remaja ... 51
viii
E. Analisis Karakteristik Psikometri Edwards Personal Prefence
Schedule (EPPS) ... 55
BAB III METODE PENELITIAN A. Jenis Penelitian ... 57
B. Data yang Digunakan ... 57
C. Populasi dan Sampel ... 58
1. Populasi Penelitian ... 57
2. Teknik Pengambilan Sampel ... 59
D. Persiapan Izin Pengambilan Data dan Pelaksanaan Penelitian ... 59
1. Pesiapan Izin Pengambilan Data ... 59
2. Pelaksanaan Penelitian ... 60
E. Teknik Analisis Data ... 61
1. Analisis Bukti ValiditasBerdasarkan Struktur Internal ... 61
2. Analisis Reliabilitas ... 61
F. Program Komputer yang Digunakan ... 62
BAB IV HASIL DAN PEMBAHASAN A. Gambaran Umum Subjek Penelitian ... 63
B. Deskripsi Hasil Penelitian ... 64
1. Hasil Analisis validitas Berdasarkan Struktur Internal ... 64
2. Hasil Analisis Reliabilitas ... 67
3. Item Measure ... 69
4. Differential Item Functioning (DIF) ... 71
5. Rangkuman Hasil Analisis Karakteristik Psikometri ... 73
ix
C. Pembahasan ... 76
BAB V KESIMPULAN DAN SARAN
A. Kesimpulan ... 84 B. Saran ... 85 DAFTAR PUSTAKA
LAMPIRAN
x
DAFTAR TABEL
Tabel 1. Implikasi Nilai Mean-Square ... 21
Tabel 2. Implikasi Nilai Outfit ZSTD ... 21
Tabel 3. Nilai Alpha Cronbach ... 33
Tabel 4. Implikasi Koefisien Reliabilitas Person dan Aitem ... 33
Tabel 5. Gambaran Subjek Pemenelitian Berdasarkan Jenis Kelamin ... 64
Tabel 6. Gambaran Umum Subjek Penelitian Berdasarkan Usia ... 64
Tabel 7. Hasil Analisis Validitas Berdasarkan Struktur Internal ... 65
Tabel 8. Hasil Analisis Reliabilitas ………... 68
Tabel 9. Hasil Analisis Item Measure ... 69
Tabel 10. Hasil Analisis DIF pada Kebutuhan heteroseksual EPPS ... 72
Tabel 11. Rangkuman Hasil Analisis Karakteristik Psikometri Item Heteroseksual EPPS ...73
xi
DAFTAR LAMPIRAN
Lampiran 1. Tabulasi Data Mentah ... 88
Lampiran 2. Hasil Analisis Reliabilitas Berdasarkan Struktur Internal ... 95
Lampiran 3. Hasil Analisis Reliabilitas Alat Ukur, Aitem dan Responden .... 96
Lampiran 4. Hasil Analisis Item Measure ... 97
Lampiran 5. Hasil Uji Differential Item Functioning (DIF) ... 98
Lampiran 6. Dokumentasi ... 99
Lampiran 7. Surat Izin Pengambilan Data ... 102
1 BAB I PENDAHULUAN
A. Latar Belakang Masalah
Ilmu Psikologi merupakan salah satu cabang ilmu yang berperan untuk mempelajari perilaku manusia. Psikologi di Indonesia baru dikenal secara formal sejak tahun 1953, yaitu sejak didirikannya jurusan psikologi di Fakultas Kedokteran Universitas Indonesia. Awalnya psikologi hanya diharapkan untuk mampu mengatasi permasalahan dalam dunia pendidikan dan pekerjaan, akibat salah penempatan atau salah pilihan sehingga kemungkinan menimbulkan gangguan jiwa, yaitu dengan melaksanakan seleksi guna mencapai “the right man in the right place”. Kemudian setelah itu, psikologi mulai berkembang sebagai ilmu dan sebagai terapan, dan banyak diselenggarakan di perguruan tinggi negeri maupun swasta (Sarwono, 2010).
Psikologi dewasa ini tidak hanya mementingkan aliran-aliran yang sifatnya teoritis, namun memperhatikan penerapannya juga (Sarwono, 2010).
Masyarakat Indonesia dapat merasakan secara langsung peran psikologi melalui jasa dan praktik psikologi yang telah disediakan oleh tenaga profesional psikologi atau psikolog. Salah satu bentuk dari jasa dan praktik psikologi yang berkembang di tengah-tengah masyarakat adalah asesmen dalam bentuk pengukuran aspek- aspek psikologis pada diri individu. Alat yang digunakan untuk mengungkap aspek-aspek psikologis dalam diri individu disebut dengan tes psikologi (Azwar, 2007).
2
Tes psikologi merupakan suatu pengukuran yang objektif dan dibakukan terhadap sampel dari suatu perilaku tertentu. Tes psikologi awalnya hanya berfungsi untuk mengukur perbedaan antar individu atau perbedaan respon seorang individu yang sama dalam situasi yang berbeda-beda. Akan tetapi pada saat ini dapat dilihat secara luas bahwa tes-tes psikologi digunakan untuk memecahkan masalah-masalah praktis berskala luas dan mencakup seluruh aspek kehidupan manusia. Terdapat tiga kategori tujuan penggunaan tes psikologi yaitu, pembuatan keputusan, penelitian psikologi, dan pemahaman serta pengembangan diri (Anastasi & Urbina, 2007).
Hampir semua kalangan masyarakat sudah mengetahui tes psikologi atau yang lebih dikenal dengan istilah psikotes. Beberapa tahun terakhir adalah masa- masa peningkatan penggunaan berbagai macam jenis tes psikologi. Dewasa ini, jika seseorang yang mencari pekerjaan, baik perusahaan menengah maupun perusahaan besar, akan dihadapkan pada 75% kemungkinan untuk diberi tes psikologi. Tes-tes tersebut digunakan di semua tingkatan, dari juru tulis dan karyawan produksi hingga staf manajer dan ahli (Parkinson, 2004). Salah satu unit yang menyediakan jasa psikotes di kota Medan, yaitu Unit Pelayanan Pusat Penelitian dan Pengabdian pada Masyarakat (selanjutnya akan disebut P3M) Fakultas Psikologi USU juga menyatakan bahwa terjadi peningkatan penggunaan psikotes. Berikut penuturan staf P3M Fakultas Psikologi USU, Adlin Hasibuan:
“Kalau untuk psikotes di P3M ini, jumlah klien setiap tahun bertambah. Apalagi untuk seleksi karyawan, setiap tahun selalu bertambah permintaan yang mau dites. Memang kami tidak bisa menyajikan peningkatan tiap tahunnya berapa dalam bentuk angka,
3
tapi secara umum dan garis besarnya dari tahun ke tahun jumlah psikotest disini mengalami peningkatan.” Adlin Hasibuan, (Komunikasi Personal, 25 Januari 2019)
Berdasarkan pernyataan tersebut, dapat disimpulkan bahwa telah terjadi peningkatan psikotes di P3M USU jika dibandingkan dengan tahun-tahun sebelumnya. Masyarakat juga sudah semakin mengenal tes psikologi dan penggunaannya, sehingga permintaan psikotes dari tahun ke tahun juga semakin mengalami peningkatan.
Alat tes psikologi menyediakan alat-alat standard untuk penyelidikan masalah-masalah yang begitu bervariasi. Aneka macam tes dirancang untuk berbagai maksud dan tujuan yang berbeda. Berbeda dalam hal sifat-sifat utamanya, berbeda cara pelaksanaannya, berbeda dalam aspek perilaku, dan berbeda dalam hal variabel yang hendak diukur (Anastasi & Urbina, 2007). Ada dua jenis tes psikologi menurut Kaplan dan Saccuzo (2005), yaitu tes kepribadian (personality test) dan tes kemampuan (ablility test). Tes kepribadian mengukur perilaku khusus, yaitu sifat, temperamen, dan disposisi. Tes kemampuan mengukur kemampuan berdasarkan kecepatan, ketepatan, ataupun keduanya.
Menurut Anastasi & Urbina (2007), tes kepribadian adalah suatu instrumen untuk mengukur ciri-ciri emosi, motivasi, perbedaan antar individu, dan sikap, yang dibedakan dari kemampuan. Pervin, dkk. (2005) mengatakan bahwa pengukuran terhadap kepribadian adalah penting dilakukan untuk memahami aspek-aspek yang berbeda dalam setiap individu dan bagaimana hubungan individu dengan individu lain. Jumlah alat tes kepribadian yang ada saat ini
4
mencapai ratusan buah. Alat tes kepribadian yang paling banyak adalah inventori kepribadian dan teknik-teknik proyektif (Anastasi & Urbina, 2007). Saat ini telah banyak tes kepribadian yang sudah pernah diadaptasi dan dikenal oleh masyarakat Indonesia, diantaranya adalah Edwards Personal Preference Schedule (selanjutnya akan disebut EPPS), Minnesota Multiphasic Personality Inventories (MMPI), Big Five Personality, Sixteen Personality Factor (16PF), PAPI Kostick, dan masih banyak lagi.
Salah satu alat tes kepribadian yang banyak digunakan di Indonesia adalah EPPS. EPPS dikonstrak oleh Allen L. Edwards pada tahun 1953, untuk menganalisis kebutuhan-kebutuhan dalam diri individu. Dasar teoritis dari EPPS adalah teori kebutuhan (needs) yang dikemukakan oleh Henry A. Murray. EPPS ini terdiri dari 210 pasang pernyataan, butir soal masing-masing skala dari skala itu dipasangkan dengan butir soal dari 14 skala lainnya, yang akan dipilih individu sesuai dengan dirinya. Maka akan didapatkan gambaran atau profil kebutuhan pribadi yang bersangkutan (Anastasi & Urbina, 1997).
EPPS meskipun dikonstrak pada tahun 1953 namun masih banyak digunakan di Indonesia karena terbilang mudah dan cepat untuk menggambarkan kepribadian individu. EPPS banyak digunakan oleh biro-biro dan pusat layanan psikologi di Indonesia untuk berbagai kepentingan. EPPS digunakan dalam bidang psikologi industri organisasi, psikologi pendidikan dan psikologi klinis.
EPPS juga telah digunakan oleh sekolah-sekolah kedinasan dan boarding school karena menggambarkan diri individu lebih dalam, EPPS juga memiliki pilihan
5
pengecekan konsistensi sehingga lebih terpercaya untuk digunakan (Rosadi, 2018).
Edward membuat EPPS di Amerika pada tahun 1954 dengan menyertakan norma sebagai standarisasi kebutuhan individu. Norma EPPS dibuat dengan memperhatikan kelompok sampel orang dewasa laki-laki dan perempuan di Amerika. Sampel normatif awal terdiri dari 749 wanita perguruan tinggi dan 760 pria perguruan tinggi yang terdaftar di berbagai universitas. Subjek dipilih untuk menghasilkan representasi gender yang kira-kira sama dan selebar mungkin, serta jurusan yang berbeda (Domino, 2006). Terdapat dua jenis norma, ada norma intra dan inter. Norma intra dalam tes EPPS adalah norma yang diperoleh dengan membandingkan satu need dengan need lain dalam diri seorang individu, sedangkan norma inter adalah norma yang diperoleh dengan membandingkan satu need dalam diri individu dengan need yang sama pada sekelompok orang.
Sekelompok orang tersebut dapat berdasarkan jenis kelamin, rentang usia, tingkat pendidikan, jenis pekerjaan/profesi, suku bangsa dan lain-lain. Norma inter EPPS yang ada saat ini dibuat tahun 1960 dan hanya dibuat berdasarkan pengelompokan jenis kelamin. Sampai saat ini EPPS yang digunakan di Indonesia masih belum pernah direvisi.
Berdasarkan kondisi norma EPPS yang belum pernah direvisi, maka penelitian-penelitian yang berkaitan dengan norma EPPS mulai bermunculan.
Hwang (1990) dalam penelitiannya “A study of the personal preference of Chinese University Students by Edwards Personal Preference Schedule” mengemukakan bahwa ada perbedaan budaya timur dan budaya barat. Mahasiswa Cina lebih
6
rendah dalam skor heteroseksual jika dibanding dengan skor heteroseksual mahasiswa Amerika. Para mahasiswa dari negara Cina dan Amerika berbeda satu sama lain dalam reaksi mereka terhadap EPPS. Para praktisi perlu memperhatikan dan menghargai latar belakang peserta tes karena akan berpengaruh terhadap keseluruhan proses asesmen (Gregory, 2013).
Penelitian mengenai EPPS juga dilakukan oleh Rachmat Saputra Rosadi, Fakultas Psikologi Universitas Negeri Makasar pada tahun 2018 tentang penyusunan norma Edwards Personal Preference Schedule (EPPS). Penelitian tersebut memberikan hasil bahwa terjadi penurunan skor pada kebutuhan heteroseksual. Penelitian Satyawan (2017), menemukan bahwa kebutuhan heteroseksual lebih kuat pada usia diatas 20 tahun daripada usia dibawah 20 tahun. Berdasarkan ketiga penelitian tersebut, dapat disimpulkan bahwa kebutuhan heteroseksual mendapatkan skor yang rendah pada usia dibawah dua puluh tahun, terkhusus pada budaya timur.
Menurut Papalia & Olds (dalam Jahja, 2012), usia dibawah dua puluh tahun berada pada tahapan remaja, yakni pada masa transisi perkembangan antara masa kanak-kanak dan dewasa yang pada umumnya dimulai pada usia 12 atau 13 tahun dan berakhir pada usia akhir belasan tahun atau awal dua puluhan tahun.
Pada masa kanak-kanak, tahap perkembangan seksual berada pada keinginan untuk memperoleh dukungan dari anggota-anggota sejenis. Sementara tugas perkembangan seksual pada remaja adalah pembentukan hubungan baru yang lebih matang dengan lawan jenis. Laki-laki maupun perempuan mulai mengembangkan sikap yang baru pada lawan jenisnya, dan selain
7
mengembangkan minat terhadap lawan jenis juga mengembangkan minat pada perbagai kegiatan yang melibatkan laki-laki dan perempuan. Pada masa remaja, berkencan berperan penting karena remaja jatuh cinta dan berharap dapat merencanakan perkawinan (Hurlock, 1980).
Perkembangan heteroseksual remaja menurut Yudrik Jahja (2012), dari arah belum memiliki kesadaran tentang perubahan seksualnya menuju ke arah menerima identitas seksualnya sebagai pria atau wanita. Pada masa kanak-kanak mereka mengidentifikasi orang yang sama jenis kelaminnya, sedangkan setelah remaja sudah mempunyai perhatian terhadap jenis kelamin yang berbeda dan bergaul dengannya. Mereka yang dulu bergaul dengan banyak teman, setelah remaja sudah memilih teman-teman tertentu.
Menurut penelitian Fadli (2007), remaja Indonesia masih minim mendapatkan pengetahuan tentang seksualitas, karena untuk penyampaian informasi mengenai hal itu masih dianggap tabu. Selain itu, lebih dari 80% remaja merasa lebih nyaman membicarakan masalah seksual dengan teman sebaya (Kumalasari, 2011). Pembicaraan-pembicaraan mengenai masalah seks, masih dianggap sebagai hal yang tabu untuk dibahas. Bahkan, sebagian masyarakat masih berpandangan stereotype dengan pendidikan seks, bahwa seolah-olah hal itu sebagai sesuatu yang vulgar untuk disampaikan kepada para remaja (Sawabi, 2010). Seksualitas pada dunia remaja Indonesia hidup pada dua sisi. Pembicaraan soal seksualitas pada remaja masih dianggap tabu. Mereka kerap menghindari atau menutup-nutupi obrolan-obrolan seputar seks. Namun, di sisi lain, aktivitas seks
8
tetap lumrah hadir menemani sendi-sendi kehidupan remaja dan dewasa muda (Juniman, 2018).
Sulit melakukan riset tentang perilaku seksual. Orang-orang yang bersedia menjawab pertanyaan tentang seks cenderung aktif secara seksual dan liberal dalam sikap mereka terhadap seks dan karena itu tidak mewakili populasi. Juga, seringkali terdapat perbedaan antara apa yang diucapkan oleh orang dan apa yang dilakukannya; dan sering tidak ada cara menguatkan atau membuktikan apa yang diucapkan oleh orang-orang tersebut. Sebagian orang menyembunyikan aktivitas seksualnya, sedangkan sebagian yang lain membesar-besarkannya (Papalia, 2008).
Azwar (2007) menyatakan bahwa sebagai alat ukur, suatu tes dapat dikatakan berhasil menjalankan fungsi ukurnya apabila alat tersebut mampu memberikan hasil ukur yang cermat dan akurat. Selain itu, suatu alat tes yang baik terdiri dari aitem-aitem yang dirancang sedemikian rupa dalam bentuk pernyataan mengenai dimensi apa yang hendak diukur atau diungkap dari aitem tersebut.
Oleh karena itu, suatu tes yang berkualitas ditentukan oleh kualitas aitem-aitem didalamnya sehingga syarat-syarat validitas, reliabilitas, dan objektivitas pada penggunaan tes sebagai alat ukur terpenuhi. Cara yang dapat dilakukan untuk mengetahui suatu alat ukur memiliki kualitas yang baik atau tidak dapat diketahui melalui uji analisis keberfungsian aitem pada alat ukur tersebut.
Setiap alat tes harus memiliki validitas dan reliabilitas yang baik. Valid artinya sejauhmana ketepatan dan kecermatan suatu alat ukur dalam melakukan
9
fungsi ukurnya (Azwar, 2010). Jika hasil tes tidak tepat, maka tes tersebut tidak valid. Validitas tes berkaitan dengan apa yang diukur pada sebuah tes dan seberapa baik tes tersebut bisa digunakan untuk mengukur. Validitas tes akan memberi tahu kita apa yang bisa kita simpulkan dari skor-skor tes (Anastasi &
Urbina, 2007). Jika data yang tidak valid tersebut dievaluasi dengan norma, maka tentu saja salah. Begitu juga sebaliknya, hasil tes yang valid, jika dikaitkan dengan norma yang tidak tepat, maka hasilnya juga pasti menjadi salah.
Selain validitas, karakteristik lain yang perlu untuk diperhatikan dalam sebuah alat tes adalah reliabilitas. Konsep reliabilitas adalah sejauhmana hasil suatu pengukuran dapat dipercaya (Anastasi & Urbina, 2007). Secara langsung reliabilitas memiliki hubungan dengan kesalahan (error), yakni random error (kesalahan yang berasal dari individu peserta tes), sedangkan kesalahan sistematik (systematic error) adalah kesalahan yang berasal dari keanggotaan suatu kelompok yang dapat mempengaruhi hasil pengukuran. Kesalahan sistematik dapat berupa Differential Item Functioning (DIF), yaitu bias yang melibatkan respon kelompok tertentu yang dapat mempengaruhi hasil pengukuran. Oleh sebab itu, kesalahan yang muncul dalam pengukuran dapat menghasilkan reliabilitas yang rendah (Osterlind, 2010). Bias yang terjadi dan berkaitan dengan reliabilitas ini juga dapat merusak validitasnya (Coaley, 2010; Osterlind, 2010).
Ketika alat ukur tidak dapat mengukur apa yang diinginkan, maka tentu saja alat ukur tersebut tidak dapat dipercaya.
Melihat kondisi alat tes EPPS yang belum pernah di revisi di Indonesia dan kondisi remaja Indonesia yang masih menganggap tabu untuk membicarakan
10
hal berbau seksual, maka dari itu diperlukan sebuah pengujian terhadap aitem- aitem yang ada dalam kebutuhan heteroseksual EPPS. Oleh sebab itu peneliti tertarik untuk melakukan penelitian tentang ”Analisis Keberfungsian Aitem Heteroseksual Edwards Personal Preference Schedule (EPPS) pada Remaja”.
B. Identifikasi Masalah
EPPS adalah alat test yang diadaptasi dari luar negeri. Salah satu kebutuhan yang akan diukur dari EPPS adalah kebutuhan heteroseksual. Berbicara mengenai seksualitas dengan orang lain merupakan hal yang tabu bagi masyarakat Indonesia. Oleh sebab itu, peneliti akan meneliti keberfungsian aitem tersebut apakah masih berfungsi dengan baik untuk melihat kebutuhan heteroseksual pada remaja.
C. Rumusan Masalah
Masalah dalam penelitian ini dirumuskan dalam bentuk pertanyaan penelitian, yaitu: Apakah aitem kebutuhan heteroseksual pada EPPS menjalankan fungsi ukurnya dengan baik jika digunakan pada remaja?
D. Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk melihat apakah aitem heteroseksual EPPS masih berfungsi dengan baik sesuai tujuan awalnya dikonstruk.
E. Manfaat Penelitian
Penelitian ini diharapkan akan bermanfaat, baik secara teoritis maupun secara praktis, yaitu:
11 1. Manfaat Teoritis
Penelitian ini diharapkan dapat memberikan manfaat teoritis dalam bidang psikologi mengenai karakteristik aitem kebutuhan heteroseksual, sehingga dapat menginformasikan apakah aitem EPPS tersebut masih dapat menggambarkan kebutuhan heteroseksual individu secara khusus remaja.
2. Manfaat Praktis
a) Penelitian ini diharapkan dapat menjadi bahan pertimbangan bagi para praktisi ketika akan menggunakan EPPS untuk mengambil keputusan.
b) Penelitian ini diharapkan dapat memberikan masukan bagi para akademisi psikometri untuk merevisi EPPS di masa yang akan mendatang.
F. Sistematika Penulisan
Sistematikan penulisan dalam penelitian ini adalah sebagai berikut:
BAB I: PENDAHULUAN
Bab ini menjelaskan tentang latar belakang masalah, identifikasi masalah, rumusan masalah, tujuan penelitian, manfaat penelitian dan sistematika penulisan.
BAB II: TINJAUAN PUSTAKA
Bab ini menjelaskan tentang validitas, reliabilitas, DIF, EPPS, remaja, dan analisis karakteristik psikometri.
BAB III: METODOLOGI PENELITIAN
Bab ini menjelaskan tentang jenis penelitian, data yang digunakan, populasi dan sampel, persiapan izin pengambilan data dan pelaksanaan penelitian, serta program komputer yang digunakan.
12 BAB IV: HASIL DAN PEMBAHASAN
Bab ini menjelaskan tentang gambaran umum subjek penelitian, analisis data penelitian dan pembahasan pada penelitian.
BAB V: KESIMPULAN, KELEMAHAN DAN SARAN
Bab ini menjelaskan tentang kesimpulan, kelemahan penelitian dan saran penelitian.
13 BAB II
LANDASAN TEORI A. Analisis Karakteristik Psikometri
1. Validitas
a. Pengertian Validitas
Menurut Osterlind (2010), validitas merupakan inti dari pengujian mental.
Validitas berarti bahwa informasi yang diungkap oleh sebuah tes adalah informasi yang sesuai, bermakna, dan berguna untuk pengambilan keputusan yang merupakan tujuan pengukuran mental. Menurut Messick pada tahun 1989, (dalam Osterlind, 2010) mengatakan bahwa validitas adalah evaluasi yang terintegrasi dari sejauh mana kesimpulan atau hipotesis hasil tes didukung oleh bukti-bukti empiris dan alasan-alasan lain dari assesment.
Validitas merupakan pertimbangan yang paling dasar dan paling penting dalam psikometri. Dalam pengukuran psikometri modern, validitas diartikan sebagai suatu tingkatan akumulasi bukti yang dapat mendukung interpretasi skor tes sesuai dengan tujuan yang diusulkan (American Educational Research Association, dkk, dalam Osterlind, 2010). Garrett (dalam Osterlind, 2010) mengatakan bahwa validitas suatu tes merupakan tingkat dimana suatu alat tes mengukur apa yang hendak diukurnya. Ketika seseorang melakukan validasi suatu tes, orang tersebut berarti memastikan sejauh mana bukti-bukti empiris sejalan dengan kesimpulan atau hipotesis dari hasil tes. Hal tersebut dapat disebut sebagai validity evaluation (Osterlind, 2010).
14
Menurut Azwar (2015), validitas mempunyai arti sejauhmana ketepatan dan kecermatan suatu alat ukur dalam menjalankan fungsi ukurnya. Pengukuran dilakukan untuk mengetahui seberapa banyak (kuantitatif) suatu aspek psikologis terdapat dalam diri seseorang, yang dinyatakan oleh skornya pada instrumen pengukur yang bersangkutan. Suatu tes atau instrumen pengukuran dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannnya pengukuran tersebut.
Tes yang menghasilkan data yang tidak relevan dengan tujuan pengukuran dikatakan sebagai tes yang memiliki validitas rendah. Terkandung pengertian bahwa valid tidaknya suatu alat tes tergantung pada mampu tidaknya suatu alat tes mencapai tujuan pengukuran yang dikehendaki dengan tepat. Suatu alat tes yang dimaksudkan untuk mengukur atribut A dan kemudian memang mengahsilkan atribut A, dikatakan sebagai alat ukur yang memiliki validitas tinggi (Azwar, 2015).
Validitas tes menurut Anastasi dan Urbina (2007) menyangkut apa yang diukur pada sebuah tes dan seberapa baik tes itu bisa mengukur. Validitas tes memberitahu pada kita tentang apa yang bisa kita simpulkan dari setiap skor-skor tes. Validitas harus ditetapkan dengan merujuk pada manfaat tes tersebut.
Menurut Gregory (2010), validitas tes berarti sejauh mana alat tes dapat mengukur apa yang hendak diukur. Para ahli psikologi sejak lama telah mengakui bahwa validitas adalah karakteristik yang mendasar dan paling penting dari suatu tes.
Validitas menetapkan makna skor tes. Validitas mencerminkan penilaian
15
evolusioner dan berdasarkan penelitian tentang seberapa memadai suatu tes mengukur atribut yang hendak diukurnya. Validitas tes tidaklah mudah dipahami melalui ringkasan statistik namun dikarakterisasikan melalui kontinum yang berkisar dari lemah, dapat diterima, hingga kuat. Kesimpulan yang ditarik dari sebuah tes yang valid akan menjadi kesimpulan yang tepat, bermakna, berguna.
Menurut Osterlind (2010) ada tiga aspek dalam validitas. Pertama, validitas mengacu pada interpretasi skor tes dalam situasi asesmen tertentu, bukan mengutamakan alat ukur tertentu. Kedua, untuk membangun suatu validitas, diperlukan proses evaluasi. Ketiga, validitas juga merupakan sebuah eksplorasi dalam psikologi.
Berdasarkan teori validitas yang telah diungkapkan para ahli maka dapat disimpulkan bahwa validitas merupakan inti dari pengujian mental dan pertimbangan yang paling dasar dan paling penting dalam psikometri. Validitas berarti bahwa informasi yang diungkap dari hasil tes adalah informasi yang sesuai, bermakna, dan berguna untuk pengambilan keputusan yang merupakan tujuan pengukuran mental. Validitas dipandang sebagai karakteristik dari skor tes bukan karakteristik skor tes itu sendiri.
b. Sumber Bukti Validitas
Messick mengatakan bahwa validitas adalah argumen evaluasi. Untuk berargumen, evaluasi harus disertai bukti yang berasal dari berbagai sumber.
Sumber-sumber ini memberikan informasi mengenai tingkat kepercayaan untuk membuat kesimpulan-kesimpulan berdasarkan skor dalam situasi tertentu.
16
Beberapa bukti yang mendukung dalam mengevaluasi validitas menurut Standards for Educational and Psychological Testing/Standards text (American Educational Research Association, dkk, 1999, dalam Osterlind 2010), yaitu:
1) Bukti Validitas Berdasarkan Isi/Konten Tes
Mengevaluasi bukti validitas dari skor tes biasanya selalu menggunakan informasi mengenai konten dari tes yang secara khusus mengarah pada content domain atau domain isi (dalam pengukuran berdasarkan domain) atau konstruk (dalam model trait tersembunyi). Walaupun orang yang mengkonstrak tes seharusnya membuat deskripsi atau informasi mengenai konstrak tes, kebanyakan orang tidak menjelaskannya secara detail. Padahal, informasi-informasi tersebut (misalnya informasi mengenai fungsi alat tes) sangat membantu dalam mempertimbangkan konten tes. Ketika menilai konstruk psikologis yang tidak mudah untuk dijelaskan maka akan muncul masalah khusus (Osterlind, 2010).
Terdapat beberapa pertimbangan untuk konstrak tes yang bersifat psikologis, terutama pada tes psikologi yang tidak boleh mengungkap informasi secara langsung. Untuk lebih memudahkan dalam pembuatan konstrak tes, biasanya dapat dengan menggunakan blueprint. Melalui blueprint alat tes, evaluasi validitas akan menjadi lebih jelas dan teliti. Blueprint juga bisa menjadi dokumen yang sangat berguna bagi pengguna tes ketika akan mengevaluasi validitas berdasarkan isi tes. Kemudian Blueprint tersebut akan dianalisis melalui penilaian ahli atau professional judgment (Osterlind, 2010).
Menurut Azwar (2005), Validitas isi menunjukkan sejauhmana aitem- aitem dalam tes mencakup keseluruhan kawasan isi objek atau ciri atribut yang
17
hendak diukur. Validitas isi ini diestimasi lewat pengujian terhadap isi tes dengan analisis rasional atau lewat professional judgement. Pengujian validitas isi harus dilakukan dengan seksama pada waktu pelaksanaan review oleh ahli. Akan tetapi, aitem-aitem dalam tes harus sudah dipastikan terlebih dahulu sudah ditulis sesuai dengan blue-print, yaitu telah sesuai dengan batasan domain ukur yang sudah ditetapkan sebelumnya dan memeriksa apakah masing-masing aitem sudah sesuai dengan indikator perilaku yang hendak diungkapnya. Pertanyaan yang ingin dicari jawabannya dalam validasi isi adalah “apakah masing-masing aitem dalam tes layak untuk mengungkap atribut yang diukur sesuai dengan indikator keperilakuanya” dan “apakah aitem-aitem dalam tes telah mencakup keseluruhan isi yang hendak diukur”?
Menurut Anastasi dan Urbina (2007), prosedur validasi isi pada dasarnya melibatkan pengujian sistematik akan isi tes untuk menentukan apakah tes itu mencakup sampel representatif dari domain perilaku yang harus diukur. Prosedur validasi seperti ini umumnya digunakan dalam tes-tes yang dirancang untuk mengukur seberapa baik individu telah menguasai suatu keterampilan atau bidang studi tertentu.
2) Bukti Validitas Berdasarkan Proses Respon
Bukti validitas berdasarkan proses respon yaitu bisa didapat dari proses subjek dalam merespon (kognitif), apakah subjek menjawab pertanyaan dari tes berdasarkan pemahaman yang sesuai dengan tes. Menurut standards text jika tes ini ditujukan untuk menguji mathematical reasoning, penting untuk menentukan apakah subjek memang melakukan reasoning ketika mengerjakannya dan bukan
18
mengikuti algoritma standar. Tes akan menjadi tidak akurat ketika pembuat tes ingin mengukur bagaimana seseorang menggunakan logikanya untuk menjawab suatu aitem dengan benar, tetapi peserta tes menjawab dengan benar aitem tersebut hanya berdasarkan informasi yang telah dihafal (Osterlind, 2010).
Proses respons dapat diteliti melalui metode sederhana dan kompleks.
Beberapa metode yang dapat digunakan adalah metode latent variable analyses, structural equation modeling (SEM), hierarchical linear modeling (HLM), conjectural analysis, path analysis, dan beberapa tipe dari meta analisis.
Meskipun metode ini dapat menakutkan dan mungkin memerlukan keahlian khusus, mereka juga dapat menghasilkan informasi penting tentang proses respons peserta ujian (Osterlind, 2010).
3) Bukti Validitas berdasarkan Struktur Internal
Secara umum, memeriksa struktur internal suatu tes mencakup seluruh tujuan validitas. Struktur internal suatu tes terutama berkaitan dengan membuat kesimpulan yang tepat dan dapat diandalkan tentang konstruks yang dievaluasi.
Validitas berdasarkan struktur internal dalam beberapa literatur disebut juga dengan validitas konstruk. Penting untuk mulai mempertimbangkan struktur internal suatu tes dengan memeriksa landasan teoretisnya. Teori yang dirancang dan diteliti dengan cermat dapat memberikan landasan yang lebih baik untuk pengembangan konstrak yang dapat diperkirakan daripada landasan yang lemah atau tidak tepat. Ketika teori diungkap dengan jelas, aitem-aitem tes cenderung akan dikonstrak lebih baik lagi. Lebih lanjut lagi, ketika teori yang mendasari fokus pada satu dimensi, menentukan konstrak tes untuk evaluasi dapat lebih
19
teliti. Dengan kata lain, metode psikometri tersedia untuk mengevaluasi struktur internal tes (Osterlind, 2010).
Teknik evaluasi struktur internal tergantung pada konteks dan tujuan tes dikembangkan, dengan pertimbangan hati-hati bagaimana cara penggunaannya dan informasi apa yang akan diungkap dari tes. Untuk mengevaluasi struktur internal, terdapat metode-metode psikometris, yaitu: analisis faktor dan metode reduksi data yang lain, cluster analysis, principal component analysis, Confirmatory Factor Analysis (CFA), multitrait-multimethod matrix (MTMM), teknik estimasi parameter kemampuan (IRT), strategi-strategi yang melibatkan teori kemampuan-generalisasi ataupun indeks reliabilitas lainnya (Osterlind, 2010).
Item Response Theory (IRT) dapat digunakan untuk menguji validitas berdasarkan struktur internal. IRT merupakan kerangka umum dari fungsi matematika yang khusus menjelaskan interaksi antara orang (person) dan butir soal/item (test items). IRT dapat menjelaskan tidak hanya nilai hubungan dan korelasi, tetapi juga memberikan gambaran yang lebih jelas tentang apa yang terjadi antara orang dan aksi yang dilakukan. Melalui IRT, data hasil pengukuran yang didapat melalui penerapan sistem pengukuran standar yang digunakan dalam ilmu eksakta juga dapat dilakukan dalam penelitian ilmu sosial (Sumintono &
Widhiarso, 2014).
Georg Rasch mengembangkan satu model analisis dari teori respon butir (atau Item Response Theory, IRT) pada tahun 1960-an biasa disebut 1PL (satu parameter logistic) (Olsen, dalam Sumintono & Widhiarso, 2013). Model
20
matematika ini kemudian dipopulerkan oleh Ben Wright. Dengan data mentah berupa data dikotomi (berbentuk benar dan salah) yang mengindikasikan kemampuan siswa, Rasch memformulasikan hal ini menjadi satu model yang menghubungan antara siswa dan aitem (Sumintono & Widhiarso, 2014).
Menurut Sumintono dan Widhiarso (2014), terdapat beberapa kelebihan yang dimiliki oleh Rasch Model. Pemodelan Rasch dapat mengakomodasi pendekatan probabilitas dalam memandang atribut sebuah objek ukur sehingga pemodelan Rasch tidak bersifat deterministik dan mampu mengidentifikasi objek ukur secara lebih cermat. Selain itu, pemodelan Rasch juga mengatasi masalah perbedaan antar butir. Pemodelan Rasch juga mengatasi masalah interval data dengan cara mengakomodasi transformasi logit, atau menerapkan logaritma pada fungsi rasio odd. Pemodelan Rasch juga cukup tahan (robust) terhadap data hilang, pemodelan ini sangat fleksibel terhadap berbagai struktur data.
Analisis validitas berdasarkan struktur internal menggunakan Rasch model dapat diukur dengan ketepatan pengukuran, yaitu apakah aitem dimengerti dengan baik oleh responden. Hal ini dapat diukur dmelalui outfit MNSQ (Mean-Square), outfit ZSTD (Z-Standard), dan Pt Mean Corr (Point Measure Correlation). Outfit adalah outlier-sensitive fit, yaitu mengukur kesensitifan pola respons terhadap aitem dengan tingkat kesulitan tertentu pada responden (person), atau sebaliknya.
Outfit dapat mendeteksi respons yang salah dari person, misalnya tidak bisa mengerjakan soal yang mudah padahal mempunyai kemampuan tinggi (careless) atau mampu mengerjakan soal yang sulit dengan kemampuan rendah (lucky guess) (Sumintono & Widhiarso, 2014).
21
Mean-square fit statistic memperlihatkan keacakan, yaitu jumlah distorsi dalam sistem pengukuran. Nilai yang diharapkan adalah antara 0,5 – 1,5. Jika nilai yang didapat kurang dari nilai tersebut mengindikasikan aitem terlalu mudah ditebak (data overfit the model); sedangkan nilai yang lebih besar mengindikasikan aitem tidak mudah diprediksi (data underfit the model) (Sumintono & Widhiarso, 2014).
Tabel 1. Implikasi Nilai Mean-Square Nilai Mean-square Implikasi pada pengukuran
>2,0 Menurunkan kualitas sistem pengukuran.
1,5-2,0 Kurang bagus untuk pembuatan instumen, tetapi tidak menurunkan kualitas.
0,5-1,5 Kondisi yang baik untuk pengukuran.
<0,5 Kurang produktif untuk pengukuran, namun tidak menurunkan kualitas, kemungkinan bisa menyebabkan kesalahan dengan reliabilitas yang tinggi.
Standardized fit statistic (ZSTD) adalah uji-t untuk hipotesis “apakah data sesuai (fit) dengan model?” Hasil dari uji-t adalah nilai-z, yaitu penyimpangan unit yang menjelaskan signifikansi kesesuaian data dengan model. Rentang nilai z yang baik adalah -2,0 < x < +2,0 (Sumintono & Widhiarso, 2014).
Tabel 2. Implikasi Nilai Outfit ZSTD Nilai ZSTD Implikasi pada pengukuran
≥ 3,0 Data tidak diharapkan jika sesuai dengan model (secara sempurna). Namun, dengan sampel yang besar, ketidaksesuaiannya mungkin lebih kecil.
2,0 – 2,9 Data tampak tidak dapat diprediksi -1,9 – 1,9 Data mempunyai perkiraan yang logis
≤ -2,0 Data terlalu mudah diprediksi
22
Nilai Point Measure Correlation (Pt Mean Corr) yang digunakan adalah 0,4 < Pt Measure Corr < 0,85 (Sumintono & Widhiarso, 2014).
4) Bukti Validitas Berdasarkan Hubungan dengan Variabel Lain
Hubungan antara skor tes dan kriteria yang diuji sering diidentifikasi dengan melabel bukti kriteria sebagai bukti prediktif atau konkuren dalam validitas. Kedua jenis bukti ini menunjukkan kemunculan hubungan antara tes dan sebuah kriteria eksternal, perbedaanya hanya waktu kapan pengukuran hubungan korelasional. Bukti prediktif juga adalah sebuah indikator yang muncul dari perbandingan antara sebuah tes dengan tes di masa depan atau kriteria administrasi posttest (setelah tes diberikan). Adapun bukti konkuren diindikasikan dengan perbandingan antara satu tes dengan kriteria-kriteria yang paralel dengan tes tersebut. Dalam mengevaluasi validitas, masalah muncul ketika sebuah hubungan korelasional adalah sumber utama dalam bukti validitas. Kesulitan muncul dari fakta bahwa dalam CTT, skor murni hanya bisa didapat secara teoritis dan tidak bisa diketahui secara pasti. Dalam dunia praktis, terbukti bahwa reliabilitas korelasional sebagai bukti kriteria untuk validitas tes, ditekan oleh derajat eror pengukuran dalam kriteria. Keadaan ini disebut sebagai masalah kriteria. Masalah kriteria adalah ketika reliabilitas kriteria bergantung pada hubungan korelasional dengan kriteria eksternalnya (Osterlind, 2010).
Konsep bukti validitas berdasarkan hubungan dengan variabel lain dalam literatur yang dikemukakan Azwar dikenal dengan istilah validitas berdasar kriteria (Azwar, 2007). Dalam prosedur validasi berdasar kriteria (criterion- related validity), tes yang validitas hasil ukurnya akan diestimasi disebut sebagai
23
prediktor. Umumnya dikenal dua tipe validitas berdasar kriteria, yaitu validitas prediktif (predictive) dan validitas konkuren (concurrent).
Apabila tes dirancang untuk memprediksi performa di masa yang akan datang, maka tes harus memiliki fungsi prediktif dan fungsi tersebut harus divalidasi oleh skor kriteria yang relevan. Skor kriteria yang relevan tersebut adalah skor performa yang hendak diprediksi itu sendiri, sehingga prosedur validasi ini tidak dapat dilakukan sebelum skor performanya diperoleh (Azwar, 2007).
Validitas konkuren menurut Azwar (2007) adalah adanya pengujian kesesuaian hasil ukur tes dengan hasil ukur kriteria validasinya, distribusi data skor keduanya harus diperoleh dari sekelompok subjek. Komputasi koefisien korelasi antara skor subjek pad ates yang divalidsi dan skor mereka pada kriterianya akan menghasilkan estimasi terhadap validitas hasil ukur tes yang disebut koefisien validitas konkuren.
5) Bukti Validitas Berdasarkan Pertimbangan-pertimbangan Eksternal
Faktor eksternal yang menjadi bukti validitas adalah face validity atau validitas tampang. Validitas tampang berarti bahwa peserta tes yang melihat instrumen tes untuk pertama kali seharusnya tidak boleh dihadapkan pada hal-hal yang tidak biasa, karena dapat menyebabkan validitas tidak baik. Validitas tampang tidak bisa diuji dengan metode statistik, bukan berarti validitas tampang bisa dianggap rendah. Memberikan sebuah instrumen tes yang memiliki tampilan profesional pada peserta tes adalah tanggung jawab validitas pembuat tes.
24
Menurut Azwar (2015), dalam proses konstruksi tes sebagai suatu alat ukur, validitas tampang sebagai bagian dari validitas isi merupakan titik awal evaluasi kualitas tes, yang dalam hal ini adalah aitem-aitemnya. Sekalipun validitas tampang tidak ada artinya tanpa dukungan dari bukti validitas lain, akan tetapi validitas tampang adalah kondisi yang perlu dipenuhi pertamakali sebelum layak membahas sisi lain dari kualitas tes.
Berdasarkan penilaian akan kelayakan tampilan aitem-aitem, kemudian dilakukan analisis yang lebih dalam dengan maksud untuk menilai kelayakan isi aitem sebagai jabaran dari indikator keperilakuan atribut yang diukur. Penilaian ini bersifat kualitatif dan judgemental dan dilaksanakan oleh suatu panel expert, bukan oleh penulis aitem atau perancang aitem itu sendiri (Straub, dalam Azwar 2015).
c. Faktor-Faktor yang Mempengaruhi Validitas
Coaley (2010) mengemukakan beberapa faktor yang dapat mempengaruhi pengukuran validitas, yaitu :
1) Batasan jangkauan data
Jangkauan data yang terbatas bisa diakibatkan oleh peserta tes yang mempunyai skor yang mirip sehingga variasi datanya rendah. Azwar (2015) mengungkapan bahwa kelompok dengan variasi data yang lebih besar akan menghasilkan skor dengan koefisien valitas yang lebih tinggi. Kelompok yang lebih homogen seperti karakteristik usia, jenis kelamin, dan kepribadian dapat menyebabkan batasan jangkauan data. Variabel-variabel ini dapat mempersempit jangkauan data (Coaley, 2010).
25 2) Hilangnya sampel
Hilangnya sampel di tengah-tengah penelitian dapat meningkatkan terjadinya penyempitan jangkauan data. Untuk mengatasi sebagian dari sampel yang hilang, dapat digunakan formula matematis statistik yang telah dikoreksi atau program tertentu yang menghitung koefisien validitas. Koefisien validitas kemudian dapat diperkirakan seakan tidak terjadi kehilangan sampel (Coaley, 2010).
3) Ukuran sampel
Jumlah partisipan yang ikut dalam sebuah tes juga dapat mempengaruhi validitas sebuah tes. Kemungkinan terjadinya kesalahan pengukuran akan lebih besar dengan jumlah sampel yang lebih sedikit. Begitu juga sebaliknya, dengan sampel yang lebih banyak maka error juga semakin kecil. Azwar (2015) menyatakan bahwa tes dengan tingkat kesalahan pengukuran yang lebih rendah akan mempunyai validitas yang lebih tinggi.
4) Efek Atenuasi
Atenuasi adalah menurunnya nilai sebuah statistik karena hilangnya asosiasi murni antar konstruk pengukuran (Osterlind, 2010). Apabila reliabilitas suatu kriteria rendah, maka koefisien validitas juga bisa berkurang. Menurunnya nilai validitas disebabkan hilangnya asosiasi dengan skor laten. Skor tampak yang diperoleh juga dipengaruhi oleh kesalahan pengukuran yang terjadi pada prediktor dan kriteria validasi sehingga menjauhi skor murni (Azwar, 2015).
26 5) Kontaminasi kriteria
Kriteria yang melibatkan koefisien validitas menjadi rendah disebabkan oleh bias dan variasi pengukuran yang digunakan sebagai kriteria adalah riteria yang terkontaminasi. Validitas akan menjadi lebih tinggi apabila dampak dari faktor yang lain yang tidak berhubungan dengan kriteria dapat diminimalisir (Coaley, 2010).
6) Asumsi mengenai kriteria validitas yang salah
Terdapat asumsi yang mengatakan bahwa untuk menghasilkan koefisien validitas, hubungan antara dua variabel yang digunakan adalah asumsi linearitas.
Asumsi ini memprediksikan koefisien validitas sebuah tes akan semakin tinggi apabila tes lain yang menjadi kriteria pengukuran semakin bisa mengukur suatu tes dengan akurat, dan sebaliknya.
d. Interpretasi Koefisien Validitas
Nilai yang menentukan ada tidaknya hubungan antara hasil alat ukur dengan kriteria lain yang berhubungan dengan pengukuran disebut koefisien validitas (Osterlind, 2010). Interpretasi koefisien validitas bersifat relatif. Tidak ada batasan universal yang mengarah kepada angka minimal yang harus dipenuhi agar suatu tes dikatakan valid. Menurut Cronbach (dalam Azwar, 2005) koefisien validitas yang baik adalah yang tertinggi yang bisa didapatkan. Jadi tidak ada batasan. Hal yang menjadi pertimbangan adalah sejauh mana tes tersebut dapat bermanfaat dalam pengambilan keputusan. Tes yang berfungsi untuk memprediksi hasil suatu prosedur seleksi dapat dikatakan memberikan kontribusi yang baik jika koefisien validitas berkisar antara 0,3 sampai dengan 0,5. Menurut Azwar (2005)
27
koefisien validitas yang tidak begitu tinggi, sekitar 0,5 akan lebih dapat diterima dan dianggap memuaskan dan koefisien validitas yang kurang dari 0,3 biasanya dianggap tidak memuaskan. Sedangkan dalam penggunaan analisis faktor konfirmatori dengan bantuan program Lisrel 8.30, suatu aitem dikatakan memiliki validitas yang baik jika memenuhi dua nilai muatan faktor, yaitu t-values dan standardize loading factor (muatan faktor standar) dengan batasan nilai kritikal tertentu. Jika nilai dari t-values <1,96 berarti estimasi muatan faktor tersebut tidak signifikan dan variabel teramati terkait bisa dihaput dari model. Sedangkan jika muatan faktor standar <0.50 makan variabel teramati tersebut bisa dihapus dari model (Wijanto, 2008).
2. Reliabilitas
1. Pengertian Reliabilitas
Menurut Osterlind (2010), reliabilitas mengarah pada ketepatan dalam pengukuran mental yang ditentukan oleh kekonsistenan dari pengukuran paralel yang acak pada berbagai pengukuran. Pengertian reliabilitas berlaku dalam dua konteks. Pertama, reliabilitas mengungkapkan ketepatan instrumen pengukuran, sebagaimana dalam indeks reliabilitas (dikalkulasi sebagai koefisien reliabilitas).
Kedua, reliabilitas diterapkan dalam antar-subjekal untuk testee, sebagaimana dispesifikasi dalam standar error pengukuran (SEM). Indeks dan SEM ini yang kemudian diintegralkan menjadi reliabilitas
Menurut Azwar (2015) reliabilitas merupakan terjemahan dari kata reliability yang berarti keterpercayaan, keterandalan, keajegan, kestabilan, konsistensi dan sebagainya, namun pada intinya konsep reliabilitas mengandung
28
makna seberapa tinggi hasil suatu pengukuran dapat dipercaya. Hasil suatu pengukuran dapat dipercaya apabila dalam beberapa kali pelaksanaan pengukuran terhadap kelompok subjek yang sama diperoleh hasil yang relatif sama, selama aspek yang diukur dalam diri subjek belum berubah. Relatif sama berarti adanya toleransi terhadap perbedaan-perbedaan kecil yang biasanya terjadi diantara hasil beberapa kali pengukuran.
Menurut Anastasi & Urbina (2006) reliabilitas suatu tes merujuk pada konsistensi skor yang didapatkan oleh subjek yang sama ketika diberikan tes ulang yang sama atau seperangkat tes yang ekivalen dengan tes sebelumnya dengan kondisi yang berbeda.
Konsep reliabilitas berhubungan dengan kemampuan untuk mengulang dan menghasilkan kembali (Coaley, 2010). Menurut Osterlind (2010), reliabilitas juga dievaluasi dengan konsistensi pengukuran ketika pengukuran diulang terhadap subjek atau kelompok dari sebuah populasi. Semakin konstan pengukuran tersebut dalam pengukuran-pengukuran yang diulang, maka semakin tinggi reliabilitasnya.
Gulliksen (dalam Osterlind, 2010) mengatakan bahwa reliabilitas adalah korelasi antara dua bentuk paralel dari sebuah tes. Pada koefisien ini, korelasinya adalah antara dua skor-skor tampak atau kumpulan-kumpulan skor.
Menurut Anastasi dan Urbina (2007), reliabilitas mengacu pada konsistensi skor yang didapatkan oleh orang yang sama ketika orang tersebut diuji kembali dengan tes yang sama pada kesempatan yang berbeda, atau dengan seperangkat butir-butir ekuivalen (equivalent aitems) yang berbeda, atau dengan
29
kondisi pengujian yang berbeda. Konsep reliabilitas telah digunakan untuk meliput berbagai aspek dari konsistensi skor. Dalam pengertian paling luas, reliabilitas tes menunjukkan sejauh mana perbedaan-perbedaan individu dalam skor tes dapat dianggap sebagai yang disebabkan oleh perbedaan-perbedaan yang
“sesunguhnya” dalam karakteristik yang dipertimbangkan dan sejauh mana dapat dianggap disebabkan oleh kesalahan peluang.
2. Metode Pengujian Reliabilitas
Ada empat metode yang digunakan dalam melakukan estimasi reliabilitas, yaitu metode tes ulang, metode bentuk paralel, metode belah dua, dan metode konsistensi internal.
1) Metode Tes-Ulang
Metode tes ulang adalah salah satu dari pendekatan pertama yang pantas dan mudah untuk mengestimasi reliabilitas dari suatu skor tes (Murphy dan Davidshofer, 2003). Metode ini dilakukan dengan cara menyajikan tes yang sama pada peserta tes yang sama dengan rentang waktu yang berbeda dan menggunakan administrasi yang sama (Osterlind, 2010). Cara estimasi pengukuran tes ulang ini dilakukan dengan menghitung korelasi antara distribusi skor subjek dari kedua pemberian tes tersebut.Asumsinya adalah bahwa suatu tes yang reliabel pasti akan menghasilkan skor-tampak yang relatif sama apabila dikenakan dua kali pada waktu yang berbeda. Semakin besar variasi perbedaan skor subjek antara kedua penyajian tersebut berarti semakin sulit untuk mempercayai bahwa tes tersebut memberikan hasil ukur yang konsisten (Azwar, 2015).
30
Metode tes-ulang dapat dikatakan baik akan tetapi dalam prakteknya memiliki beberapa kelemahan. Peserta tes cenderung akan berubah dalam beberapa aspek (misalnya pada sifat) di antara sesi tes. Hal ini dapat menyebabkan eror karena adanya tenggang waktu, yang rentan pada pengukuran perilaku yang cenderung berubah karena perubahan waktu (Azwar, 2003). Dalam hal lain, terjadi efek bawaan (carry-over effects) dikarenakan subjek masih ingat jawaban yang diberikannya pada waktu pertama kali tes disajikan, kemudian pada waktu tes tersebut disajikan ulang, subjek hanya sekedar mengingat saja apa jawaban yang pernah ia berikan. Metode tes-ulang juga terkesan kurang praktis karena tester harus kembali menghubungi peserta tes untuk mengikuti tes selanjutnya.
Pendekatan tes ulang cocok digunakan hanya bagi tes yang mengukur aspek psikologis yang relatif stabil dan tidak mudah berubah (Azwar, 2007).
2) Metode Bentuk Paralel
Pendekatan reliabilitas bentuk paralel adalah mengembangkan tes yang memiliki aitem yang ekuivalen, misalnya indeks kesukaran aitem setara. Korelasi di antara kedua tes tersebut kemudian akan digunakan untuk mengestimasi reliabilitas tes. Kelebihan dari penggunaan metode ini, efek carry-over akan berkurang karena menggunakan dua tes yang berbeda. Rentang waktu antara tes pertama dan tes kedua juga tidak menjadi peranan penting. Walaupun begitu, mengembangkan bentuk tes yang paralel sangat sulit, memakan waktu dan memerlukan banyak biaya. Selain itu, tidak ada jaminan bahwa bentuk tes ekuivalen dengan tes yang akan dievaluasi. Sesuai dengan apa yang dikemukakan Osterlind (2010), kesulitan penggunaan pengukuran yang paralel adalah
31
mengidentifikasi pengukuran dengan tepat (ekuivalen terhadap tes yang akan dievaluasi). Hal ini yang menyebabkan metode bentuk alternative muncul.
Namun, metode ini memiliki kesamaan, yaitu menggunakan alat ukur lain sebagai pembanding. Hal yang membedakan antara metode bentuk alternatif dan metode bentuk paralel adalah cara mendapatkan alat ukurnya. Metode bentuk paralel menggunakan alat ukur yang dikembangkan sendiri, sedangkan metode bentuk alternatif tidak.
3) Metode Konsistensi Internal
Cara lain yang dapat digunakan ketika tidak ada bentuk alternatif tes lain adalah dengan menggunakan metode konsistensi internal. Metode ini lebih praktis dan lebih efisiens dibanding dengan metode paralel dan tes ulang. Metode ini bertujuan untuk melihat konsistensi antar aitem dalam sebuah tes, sehingga komputasi koefisien reliabilitas dilakukan ketika tes yang diberikan dibelah menjadi beberapa bagian. Metode ini digunakan dengan membagi tes menjadi n bagian (n ≥ 2). Ketika tes dibagi menjadi dua, asumsi yang didapat adalah kedua tes yang dibelah ekuivalen. Metode belah dua membandingkan satu bagian tes dengan bagian lain dalam tes tersebut, sedangkan pada metode konsistensi internal membandingkan setiap aitem dengan aitem lainnya (Murphy & Davidshofer, 2003).
Cara pembelahan tes disesuaikan dengan sifat dan fungsi tes serta jenis skala pengukuran yang digunakan dalam tes tersebut yang kemudian akan menentukan rumusan atau rumus yang dapat digunakan dalam menghitung koefisien reliabilitasnya. Setiap cara pembelahan tes hendaknya mengusahakan
32
agar antar belahan memiliki jumlah aitem sama banyak, indeks kesukaran seimbang, isi sebanding, dan tujuan ukur yang sama atau dalam artian pembelahan aitem memenuhi ciri-ciri paralel (Azwar, 2015).
a) Pembelahan Cara Random
Pembelahan cara random dapat dilakukan dengan mengambil beberapa aitem secara acak untuk dimasukkan ke belahan pertama dan belahan kedua. Namun, perlu diingat bahwa pembelahan cara random hanya dapat digunakan jika tes yang dibelah memiliki aitem yang homogen, baik dari segi isi maupun dari segi kesukaran aitem.
b) Pembelahan Ganjil Genap
Pembelahan ganjil genap dapat dilakukan dengan mengambil aitem-aitem bernomor ganjil dimasukkan ke belahan pertama dan aitem-aitem bernomor genap dimasukkan ke belahan kedua. Pembelahan cara ini digunakan dengan asumsi apabila aitem-aitem yang disusun dalam suatu tes memiliki urutan- urutan tertentu, seperti kesukaran aitem, sehingga setelah tes dibelah, setiap belahan memiliki isi yang setara.
c) Pembelahan Matched-Random Subsets
Pembelahan matched-random subsets digunakan pada tes yang telah diukur tingkat kesukaran aitem dan korelasi antar aitem tes. Aitem-aitem tersebut kemudian dimasukkan ke dalam grafik kartesius dengan sumbu x untuk koefisien korelasi antar aitem dan sumbu y untuk indeks kesukaran aitem.
Dengan meletakkan aitem-aitem tersebut, dapat dilihat aitem-aitem yang
33
berdekatan memiliki tingkat setara, sehingga ketika dibelah, belahan pertama dan belahan kedua memiliki tingkat setara.
Reliabilitas berdasarkan metode konsistensi internal dapat diuji menggunakan pemodelan Rasch. Pemodelan Rasch membagi koefisien reliabilitas menjadi tiga, yaitu koefisien reliabilitas instrumen (alpha Cronbach), koefisien reliabilitas person (person reliability), dan koefisien reliabilitas aitem (item reliability). Nilai untuk setiap koefisien reliabilitas dapat dilihat pada tabel 3 dan 4 (Sumintono & Widhiarso, 2014).
Tabel 3. Nilai Alpha Cronbach
Koefisien Alpha Cronbach Implikasi
< 0,5 Buruk
0,5 – 0,6 Jelek
0,6 – 0,7 Cukup
0,7 – 0,8 Bagus
> 0,8 Bagus sekali
Tabel 4. Implikasi Koefisien Reliabilitas Person dan Aitem Koefisien Person Reliability & Item
Reliability
Implikasi
< 0,67 Lemah
0,67 – 0,80 Cukup
0,81 – 0,90 Bagus
0,91 – 0,94 Bagus sekali
> 0,94 Istimewa
34
3. Faktor-faktor yang mempengaruhi Koefisien Reliabilitas
Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu instrumen, yaitu:
1) Homogenitas Kelompok
Koefisien reliabilitas suatu tes akan dipengaruhi oleh variasi antara skor murni dan eror kelompok subjek atau skor tampak kelompok subjek. Jika asumsinya varians eror pada dua tes paralel atau ekivalen tetap dan rxx’ sama dengan 1- se2/sx2, maka tinggi rendahnya koefisien reliabilitas akan tergantung pada besar kecilnya varians skor tampak (sx2). Artinya pada kelompok subjek yang homogen, yaitu yang memiliki varians skor tampak kecil, harga se2/sx2 akan relatif lebih kecil dibandingkan dengan kelompok subjek yang heterogen. Oleh sebab itu, semakin besar homogenitas kelompok akan semakin rendah nilai koefisien reliabilitas suatu tes dibandingkan dengan kelompok subjek yang heterogen.
2) Batasan Waktu dalam Tes
Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki indeks reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih pendek, terutama pada tes dengan komposisi aitem yang sama. Hal ini dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan lebih maksimal. Sementara pada tes yang memiliki waktu lebih pendek,
35
performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut.
3) Panjang Tes
Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya aitem- aitem yang menyusun tes tersebut. Semakin banyak aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas tes tersebut.
Rumus konsistensi internal untuk memperkirakan reliabilitas menunjukkan bahwa dua faktor mempengaruhi koefisien reliabilitas (Murphy dan Davidshofer, 2003)
1) Karakteristik orang yang mengikuti tes
Faktor pertama yang mempengaruhi reliabilitas pengukuran psikologis adalah sejauh mana orang yang mengikuti tes bervariasi pada karakteristik atau atribut yang diukur. Seperti yang dinyatakan sebelumnya, tes dirancang untuk mengukur perbedaan individu. Individu yang tidak jauh berbeda dalam hal atribut atau ciri tertentu, maka akan sulit untuk mengembangkan ukuran atribut yang dapat diandalkan tersebut. Misalnya, bayangkan Anda adalah guru kelas satu yang mencoba memperkirakan perbedaan tinggi siswa Anda antar individu ketika mereka duduk di meja mereka. Anak-anak pada usia ini cenderung menjadi individu yang sangat mirip dan tidak banyak berbeda dalam hal atribut atau sifat tertentu, sulit untuk mengembangkan ukuran yang dapat diandalkan dari atribut itu. Misalnya, bayangkan Anda adalah guru kelas satu yang mencoba memperkirakan perbedaan individu dalam ketinggian siswa Anda ketika mereka
36
duduk di meja mereka. Anak-anak pada usia kelas satu cenderung memiliki tinggi yang sama, sehingga tugas ini akan menjadi sulit dilakukan. Deviasi standar memberikan ukuran variabilitas, atau sejauh mana individu berbeda. Semakin besar standar deviasi, maka semakin besar kemungkinan suatu tes reliabel. Contoh paling jelas dari fenomena ini akan terjadi jika semua orang menerima skor yang sama saat ujian. Contohnya, jika sekelompok fisikawan mengambil tes matematika kelas tiga, masing-masing dari mereka mungkin akan menerima skor 100. Tes akan memiliki koefisien reliabilitas 0,0, namun, kesalahan standar pengukuran juga adalah 0,0 karena tidak ada perbedaan individu dalam skor tes.
2) Karakteristik Tes
Formula konsistensi internal untuk menilai reliabilitas menyatakan dua faktor yang mempengaruhi koefisien reliabilitas:
1. Hubungan antar aitem 2. Jumlah aitem
Pengertian ini menyarankan bahwa reliabilitas tes dapat ditingkatkan dengan dua cara: dengan meningkatkan korelasi antar aitem atau dengan meningkatkan jumlah aitem. Sebuah tes yang terdiri dari 40 pertanyaan matematika mungkin lebih reliabel dibandingkan 40 aitem tes yang melingkupi matematika, visual spasial, baseball trivia, dan pengetahuan tata bahasa prancis;
dan 80 aitem tes matematika yang mungkin lebih reliabel daripada 40 aitem tes matematika yang mirip.