BUKTI VALIDITAS ALAT UKUR KESABARAN BERDASARKAN STRUKTUR INTERNAL SKRIPSI. Disusun oleh: SHERLY ROSELLINY KENCANA

(1)

BUKTI VALIDITAS ALAT UKUR KESABARAN BERDASARKAN STRUKTUR INTERNAL

SKRIPSI

Diajukan untuk memenuhi persyaratan Ujian Sarjana Psikologi

Disusun oleh:

SHERLY ROSELLINY KENCANA

151301088

FAKULTAS PSIKOLOGI

UNIVERSITAS SUMATERA UTARA

2019

(2)

(3)

(4)

Bukti Validitas Alat Ukur Kesabaran berdasarkan Struktur Internal

Sherly Roselliny Kencana dan Etti Rahmawati ABSTRAK

Kesabaran merupakan salah satu konstrak psikologis yang telah banyak diteliti. Namun kebanyakan penelitian tersebut hanya menggunakan satu sudut pandang saja. Akan tetapi, Subandi meneliti konsep kesabaran menggunakan sudut pandang yang lebih luas. Oleh karena itu, Zega dan Rahmawati mengkonstruk alat ukur kesabaran berdasarkan konsep yang dikemukakan oleh Subandi, yang terdiri dari 57 aitem awal dan 38 aitem final. Alat ukur tersebut telah divalidasi menggunakan validitas berdasarkan isi. Penelitian ini bertujuan untuk menambah bukti validitas. Bukti validitas yang penting dan paling memungkinkan untuk dianalisis adalah validitas berdasarkan struktur internal dengan menggunakan pemodelan Rasch. Selain itu, penelitian ini juga menambah jumlah rater serta membuktikan kembali validitas berdasarkan isi yang dilakukan dengan formula Aiken’s V. Kemudian, penelitian ini juga menganalisis reliabilitas alat ukur, aitem, dan responden yang dilakukan dengan pemodelan Rasch. Sampel yang digunakan dalam penelitian ini adalah 240 orang dewasa muda di Medan. Hasil penelitian menunjukkan bahwa 57 aitem pada skala kesabaran terbukti valid berdasarkan isi namun skala final dengan 38 aitem tersebut masih memerlukan pengembangan lebih lanjut. Pada penelitian ini juga terdapat skala alternatif yang terdiri atas 19 aitem.

Kata Kunci: Kesabaran, Skala Kesabaran, Bukti Validitas berdasarkan Struktur Internal, Bukti Validitas berdasarkan Isi, Reliabilitas

(5)

Validity based on Internal Structure Evidence of Patience Scale

Sherly Roselliny Kencana and Etti Rahmawati ABSTRACT

Patience is one of the psychological constructs which has been researched often. But most of the researches used only one perception. However, the concept proposed by Subandi used a wider perception. Hence, Zega and Rahmawati constructed a patience scale based on the concept proposed by Subandi which consisted of 57 initial items and 38 final items. The patience scale has been validated using validity based on content evidence. This study aimed to add more validity evidences. The important and most likely validity evidence to be analyzed wass validity based on internal structure evidence by using Rasch model. Besides, this study also added more raters and reanalyzed validity based on content evidence which used Aiken’s V formula. Moreover, this study also analyzed scale’s reliability, items’ reliability and respondents’ reliability using Rasch model. The samples used in this study are 240 early adults in Medan. The results of this study were 57 items in patience scale is proved to be valid based on content but the final scale with 38 items is still needed to be further developed. This study also had an alternative scale which consisted of 19 items.

Keywords: Patience, Patience Scale, Validity based on Internal Structure Evidence, Validity based on Content Evidence, Reliability

(6)

KATA PENGANTAR

Puji dan syukur kehadirat Tuhan Yang Maha Esa atas berkat rahmat serta kasih-Nya sehingga peneliti dapat menyelesaikan skripsi ini dengan baik dan tepat.

Penyusunan skripsi yang berjudul Validitas Alat Ukur Kesabaran berdasarkan Struktur Internal merupakan syarat ujian sarjana Psikologi di Fakultas Psikologi Universitas Sumatera Utara.

Peneliti menerima banyak bimbingan, motivasi, dan saran dari banyak pihak selama proses penyusunan skripsi. Oleh sebab itu, pada kesempatan ini peneliti mengucapkan terima kasih yang sebesar-besarnya kepada:

1. Bapak Zulkarnain, Ph.D, Psikolog, selaku Dekan Fakultas Psikologi Universitas Sumatera Utara.

2. Ibu Etti Rahmawati, S.Psi., M.Si. selaku dosen pembimbing yang telah memberikan ilmu, nasihat, dan waktunya untuk membimbing peneliti dalam menyelesaikan penelitian ini.

3. Ibu Ika Sari Dewi, S.Psi., M.Pd, Psikolog dan kak Juliana I. Saragih, M.Psi, Psikolog yang telah bersedia meluangkan waktu untuk menguji peneliti dan memberikan masukan dan saran kepada peneliti.

4. Ibu Ika Sari Dewi, S.Psi, M.Pd, Psikolog, Kak Dina Nazriani, S.Psi., M.A., Kak Amalia Meutia, S.Psi., M.Psi., Kak Afrina E.S. Sagala, M.Psi., Psikolog, dan Kak Suri Mutia Siregar, M.Psi., Psikolog yang merupakan dosen di Departemen Umum dan Eksperimen yang memberikan saran, motivasi, serta menyediakan waktunya untuk membimbing peneliti dalam menyelesaikan penyusunan skripsi ini.

(7)

5. Mama, Papa, ko Andi Kencana, ko Randy Kencana, dan ci Caryn Annabelle Wangsa yang telah memberi doa dan dukungan yang tak terhingga.

6. Hendry, Gina, Arfa, Adinda, Amalia, Putri Raudhah, Putri Halimahyani, Fahira, Marha, Ruth, Hani, Alya, Lia, dan teman-teman 2015, adik-adik 2016, 2017, dan 2018 yang telah banyak memberikan bantuan baik moril maupun materil.

7. Billy, Stephanie, Fransiska, Muly, Vivian, Chyntia, Ardi, Tifanny, dan Eric yang telah sangat membantu dalam pengambilan data.

8. N.Y.P.D. yang beranggotakan ci Marsel, Emilia, ci Gra Cella, ko Rivaldi, ko Richard, William, Nasri, Johannes, ko Vincent, dan ko Martyn yang telah sangat membantu, baik moril maupun materil.

9. MP yang beranggotakan Wiviany, Chanie, Winny, Melissa, Henson, Winardi, Sudianto, Aldo, Carvin, Harryanto, Kenrick, Effendy, dan Hendy yang telah memberikan bantuan dan dukungan.

Penulis menyadari bahwa skripsi ini masih jauh dari kesempurnaan, oleh sebab itu penulis mengharapkan kritik dan saran yang bersifat membangun dari semua pihak demi kesempurnaan skripsi ini. Akhir kata, peneliti mengucapkan terima kasih dan semoga penelitian ini dapat bermanfaat bagi berbagai pihak.

Medan, April 2019

Sherly Roselliny Kencana 151301088

(8)

DAFTAR ISI

ABSTRAK ... i

ABSTRACT ... ii

KATA PENGANTAR ... iii

DAFTAR ISI... v

DAFTAR TABEL ... vii

DAFTAR RUMUS ... viii

DAFTAR LAMPIRAN ... ix

BAB I ... 1

A. Latar Belakang ... 1

B. Rumusan Masalah ... 9

C. Tujuan Penelitian ... 10

D. Manfaat Penelitian ... 10

E. Sistematika Penulisan ... 11

BAB II ... 12

A. Kesabaran ... 12

1. Pengertian Kesabaran ... 12

2. Aspek Kesabaran ... 13

B. Validitas ... 15

1. Pengertian Validitas ... 15

2. Sumber Bukti Validitas ... 16

a. Validitas berdasarkan Isi Tes ... 17

b. Validitas berdasarkan Proses Respon ... 20

c. Validitas berdasarkan Struktur Internal... 21

d. Validitas berdasarkan Hubungan dengan Variabel Lain ... 25

e. Validitas berdasarkan Pertimbangan Eksternal ... 26

3. Faktor yang Memengaruhi Validitas ... 26

C. Reliabilitas ... 28

1. Pengertian ... 28

2. Metode Pengujian Reliabilitas ... 29

3. Faktor yang Memengaruhi Reliabilitas ... 34

D. Properti Psikometri Skala Kesabaran ... 36

BAB III ... 40

(9)

B. Definisi Operasional ... 40

C. Subyek Penelitian ... 42

1. Populasi dan Sampel Penelitian ... 42

2. Teknik Pengambilan Sampel ... 42

D. Prosedur Penelitian ... 43

1. Mengidentifikasi Tujuan Utama Pengukuran... 43

2. Revisi Aitem-Aitem yang Dimuat dalam Alat Ukur ... 43

3. Pembuktian Validitas Aitem berdasarkan Isi ... 43

4. Preliminary Aitem ... 44

5. Pemberian Tes pada Sampel yang Mewakili Populasi ... 44

6. Pengolahan Data ... 44

a. Pembuktian Validitas Aitem berdasarkan Struktur Internal ... 45

b. Uji Reliabilitas ... 45

BAB IV ... 47

A. Gambaran Umum Data Penelitian ... 47

B. Deskripsi Hasil Penelitian ... 47

1. Hasil Analisis Validitas Isi ... 47

2. Hasil Preliminary Aitem-Aitem pada Skala Kesabaran ... 50

3. Hasil Analisis Validitas berdasarkan Struktur Internal ... 51

4. Hasil Analisis Reliabilitas ... 59

5. Rangkuman Hasil Analisis Karakteristik Psikometri Skala Kesabaran ... 60

C. Pembahasan ... 64

BAB V ... 73

A. Kesimpulan ... 73

B. Saran ... 73

DAFTAR PUSTAKA ... 75

LAMPIRAN... 78

(10)

DAFTAR TABEL

Tabel 1. Implikasi Koefisien V ... 20

Tabel 2. Implikasi Nilai Mean-square ... 24

Tabel 3. Implikasi Nilai Outfit ZSTD ... 25

Tabel 4. Implikasi Koefisien Reliabilitas Instrumen ... 33

Tabel 5. Implikasi Koefisien Reliabilitas Person dan Aitem ... 33

Tabel 6. Properti Psikometri Skala Kesabaran ... 36

Tabel 7. Proporsi Sampel Penelitian berdasarkan Usia ... 47

Tabel 8. Hasil Analisis Validitas Isi ... 49

Tabel 9. Ringkasan Hasil Analisis Validitas Isi ... 50

Tabel 10. Hasil Analisis Ketepatan Pengukuran pada Skala Kesabaran ... 53

Tabel 11. Hasil Analisis Reliabilitas ... 59

Tabel 12. Rangkuman Hasil Analisis Karakteristik Psikometri Skala Kesabaran .. 61

(11)

DAFTAR RUMUS

Rumus 1. Aiken’s V ... 44 Rumus 2. Alpha Cronbach ... 45

(12)

DAFTAR LAMPIRAN

Lampiran 1. Blue-Print Awal Skala Kesabaran pada Penelitian Sebelumnya ... 79

Lampiran 2. Blue-Print Akhir Skala Kesabaran pada Penelitian Sebelumnya ... 82

Lampiran 3. Aitem-Aitem yang diputuskan untuk digunakan ... 85

Lampiran 4. Hasil Validasi Aitem Skala Kesabaran berdasarkan Isi ... 90

Lampiran 5. Hasil Preliminary Skala Kesabaran ... 93

Lampiran 6. Data dan Skor Subyek Skala Kesabaran ... 96

Lampiran 7. Hasil Analisis Ketepatan Pengukuran pada Skala Kesabaran... 126

Lampiran 8. Hasil Analisis Reliabilitas Alat Ukur, Aitem, dan Responden... 129

Lampiran 9. Blue-Print Format Skala Kesabaran Final (38 Aitem) ... 130

Lampiran 10. Blue-Print Format Skala Kesabaran Final (19 Aitem) ... 133

Lampiran 11. Rangkuman Hasil Analisis dan Penetapan Aitem dari Penelitian Sebelumnya dan Penelitian ini ... 135

Lampiran 12. Skala Kesabaran ... 1358

(13)

BAB I

PENDAHULUAN A. Latar Belakang

Sabar adalah salah satu unsur internal yang dimiliki oleh setiap manusia (Yusuf, Kahfi, & Chaer, 2018). Kesabaran dianggap sebagai salah satu trait (karakteristik) yang ada dalam diri individu (Hume dan Hutcheson dalam Bommarito, 2014). Kesabaran dalam Bommarito (2014) dianggap sebagai karakteristik manusia yang baik yang membantu individu dalam mencapai tujuan.

Sejalan dengan Bommarito, Schnitker (2012) mengatakan bahwa kesabaran memfasilitasi pencapaian tujuan dan kepuasan terutama dalam menghadapi rintangan. Hal ini dikarenakan kesabaran merupakan salah satu bentuk pertahanan psikologis seseorang dalam menghadapi masalah (Rohmah, 2012). Alan dan Ertac (2014) dalam penelitiannya juga mengungkapkan bahwa kesabaran merupakan salah satu keterampilan non-kognitif yang penting yang terkait dengan hasil yang menguntungkan dalam bidang pendidikan, ekonomi dan sosial. Menyadari pentingnya kesabaran, mulai banyak penelitian ilmiah yang membahas mengenai kesabaran.

Konsep sabar telah banyak digunakan dalam literatur, namun hampir semua literatur yang ditemukan di Indonesia menggunakan konsep sabar dalam pandangan agama Islam. Seperti Stiono (2015) yang menggunakan buku karya Ibnul Qayyim al-Jauziyah untuk mengkaji konsep sabar dalam pendidikan agama Islam.

Penelitian lain yang dilakukan oleh Zulhammi (2016) yang mengaitkan perilaku sabar dengan kesehatan mental juga menggunakan konsep sabar yang dihubungkan

(14)

dengan agama Islam. Marettih dan Wahdani (2017) dalam penelitiannya juga menggunakan konsep sabar dari sudut pandang agama Islam yang dikemukakan oleh Achmad Mubarok dalam bukunya yang berjudul Psikologi Islam.

Berbeda dengan literatur-literatur yang membahas konsep sabar hanya dari satu sudut pandang saja, Subandi (2011) membahas konsep sabar dengan sudut pandang yang lebih luas. Subandi (2011) meneliti konsep sabar berdasarkan literatur agama dan studi empiris. Subandi awalnya mencari artikel barat yang menggunakan kata kunci patient dan patience namun hanya ada 1 dari 20 artikel yang membahas kesabaran secara mendetail. Dalam meneliti literatur agama, Subandi (2011) menggunakan kitab suci dari agama Islam, Kristen, Hindu, dan Budha beserta tokoh-tokoh agama tersebut. Dalam mencari konsep sabar dalam agama Islam, digunakan software Al Qur’an dan terjemahannya. Untuk konsep sabar dalam agama Kristen, Hindu dan Budha digunakan searching engine Google.

Penelitian empiris Subandi (2011) dilakukan dengan pendekatan kualitatif grounded theory. Subyek yang digunakan adalah mahasiswa magister profesi Psikologi sebanyak 90 orang. Data diperoleh dengan mengisi angket yang berisi pertanyaan terbuka yang telah ditentukan sebelumnya.

Subandi (2011) lalu memperoleh kesimpulan dari literatur agama dan studi empiris yang diteliti, yaitu konsep sabar terbagi menjadi lima kategori, yaitu pengendalian diri, ketabahan, kegigihan, menerima kenyataan pahit dengan ikhlas dan bersyukur, sikap tenang dan tidak terburu-buru. Selain teori Subandi, pengertian sabar juga terdapat pada KBBI dan dibahas oleh Yusuf (2010, dalam Yunita & Yusuf, 2015), dan Schnitker (2012). Menurut Schnitker (2012), kesabaran

(15)

adalah kecenderungan untuk menunggu dengan tenang dalam menghadapi frustrasi atau kesulitan. Dibandingkan dengan teori Subandi, Teori Schnitker hanya mencakup kategori tenang dan tidak tergesa-gesa. Empat kategori lainnya yang ada pada teori Subandi tidak tercakup kedalam teori Schnitker.

Lebih luas dari teori Schnitker, Yusuf (2010, dalam Yunita & Yusuf, 2015) mengartikan kesabaran sebagai kemampuan untuk mengatur, mengendalikan, mengarahkan perilaku, perasaan, dan tindakan, serta mengatasi berbagai kesulitan secara komprehensif dan integratif. Dalam hal ini, makna kesabaran Yusuf dan Subandi memiliki kesamaan pada kategori pengendalian diri, sikap tenang dan tidak terburu-buru. Tetapi kategori ketabahan tidak ditekankan dalam pengertian dari Yusuf, begitu juga dengan kegigihan dan menerima kenyataan pahit dengan ikhlas dan bersyukur.

Selanjutnya, KBBI membahas konsep sabar lebih luas dari Schnitker dan Yusuf. Sabar menurut KBBI adalah tahan menghadapi cobaan (tidak lekas marah, tidak lekas putus asa, tidak lekas patah hati); tabah; tenang; tidak tergesa-gesa; tidak terburu nafsu. Pengertian dari KBBI memang lebih luas dari kedua teori sebelumnya. Namun, dibandingkan dengan teori Subandi, KBBI hanya mencakup kategori pengendalian diri, ketabahan, sikap tenang dan tidak terburu-buru dan tidak mencakup kategori kegigihan, menerima kenyataan pahit dengan ikhlas dan bersyukur. Jika dilihat dari pemaparan ini, dapat dikatakan bahwa konsep sabar menurut Subandi (2011) memiliki cakupan yang luas sehingga pengertian sabar yang ditemukan dalam penelitian lain tercakup di dalam konsep sabar Subandi.

(16)

Zega dan Rahmawati (2018) kemudian mengkonstruksi alat ukur kesabaran dengan menggunakan konsep sabar dari Subandi (2011) sebagai teori utama karena teori tersebut memiliki cakupan pengertian kesabaran yang luas. Alat ukur ini merupakan alat ukur yang menggunakan skala likert dan memiliki 57 aitem pada awalnya. Analisis yang digunakan dalam alat ukur ini adalah validasi berdasarkan bukti isi melalui penilaian ahli lalu menggunakan formula Aiken’s V untuk mendapatkan koefisien validitas. Tidak hanya itu, alat ukur ini juga melewati analisis daya diskriminasi aitem menggunakan koefisien korelasi Product Moment Pearson dan uji reliabilitas Alpha Cronbach.

Alat ukur kesabaran ini sebenarnya dikonstruksi agar dapat digunakan oleh semua rentang usia. Namun, sebagai tahap awal, Zega dan Rahmawati (2018) menggunakan sampel dewasa awal dengan rentang usia 18-40 sebanyak 350 subyek.

Usia dewasa awal diambil dengan pertimbangan bahwa masa tersebut merupakan masa yang panjang dan terjadi berbagai perubahan fisik dan psikologis, serta berbagai permasalahan penyesuaian diri seperti kehidupan pekerjaan, pernikahan, pergaulan, dan sebagainya. Setelah melewati validasi isi berdasarkan penilaian oleh ahli, uji daya diskriminasi, dan reliabilitas, skala yang didesain untuk mempunyai 38 aitem, semua aitemnya terbukti valid berdasarkan validitas isi meskipun ada beberapa aitem yang masih memiliki kemampuan diskriminasi yang rendah.

Menurut Osterlind (2010), sebuah alat ukur akan memiliki tingkat kepercayaan yang lebih tinggi jika memiliki bukti dari banyak sumber. Bukti-bukti tersebut dinamakan bukti validitas.

(17)

Validitas menurut Osterlind (2010) adalah informasi yang dihasilkan oleh tes sesuai, bermakna, dan berguna untuk membuat keputusan. Hal ini sesuai dengan validitas menurut Standards (American Educational Research Association dalam Osterlind, 2010) yang diartikan sebagai sejauh mana bukti dan teori mendukung interpretasi skor tes yang sesuai dengan tujuan penggunaan tes. Azwar (2017a) menyebut bahwa validitas sering dikonsepkan sebagai kemampuan suatu hasil tes untuk mengukur secara tepat atribut yang seharusnya diukur.

Menurut Chan (2014), validitas dan validasi adalah masalah paling mendasar dalam pengembangan, evaluasi, dan penggunaan alat ukur. Osterlind (2010) juga mengatakan bahwa validitas adalah inti dari tes mental. Hal ini dikarenakan menurut Osterlind (2010), pengukuran atribut mental dapat memberikan informasi yang berguna dan bermakna yang dapat mendukung keputusan yang baik. William Angoff (1988 dalam Osterlind, 2010) juga mengatakan bahwa validitas sudah selalu dianggap sebagai yang paling mendasar dan penting dalam psikometri. Dalam psikometri modern, validitas kemudian didefinisikan sebagai sejauh mana semua bukti yang dikumpulkan mendukung interpretasi skor tes yang diinginkan untuk tujuan yang diajukan (Standards text dalam Osterlind, 2010).

Terdapat lima sumber bukti yang dapat dikumpulkan untuk mengevaluasi validitas suatu alat ukur yang sesuai dengan Standards for Educational and Psychological Testing (dalam Osterlind, 2010), yaitu bukti validitas berdasarkan isi, proses respon, struktur internal, hubungan dengan variabel lain, dan pertimbangan eksternal. Berdasarkan isi, alat ukur kesabaran telah diuji validitasnya pada penelitian sebelumnya (Zega & Rahmawati, 2018). Namun, pada penelitian

(18)

sebelumnya, beberapa aitem masih memiliki indeks validitas berdasarkan isi yang kurang memuaskan. Oleh karena itu, beberapa aitem harus direvisi kembali dengan mengubah bunyi kalimatnya. Hal ini sesuai dengan yang dikemukakan oleh Osterlind (2010) bahwa jika keadaan berubah, maka bukti validitas harus berkembang untuk mendukung perubahan tersebut. Dalam hal ini, dengan direvisinya beberapa aitem, maka bukti validitas berdasarkan isi perlu diuji kembali.

Selain itu, penelitian sebelumnya hanya menggunakan dua rater sehingga jumlah rater perlu ditambah. Hal ini dikarenakan menurut Coaley (2010), semakin banyak jumlah rater, maka semakin kecil jumlah eror yang dihasilkan. Sehingga penambahan jumlah rater pada penelitian ini bertujuan untuk mengurangi eror. Alat ukur ini tidak perlu diuji validitasnya berdasarkan proses respon karena interpretasi terhadap hasil alat ukur kesabaran tidak dipengaruhi cara seseorang merespon aitem-aitemnya. Konsep kesabaran juga belum memiliki alat ukur lain dengan konsep yang sama untuk dibandingkan dengan alat ukur ini sehingga bukti validitas berdasarkan konkuren belum memungkinkan untuk diuji.

Validitas berdasarkan struktur internal, atau dalam beberapa literatur dikenal dengan validitas konstrak, berfokus dengan membuat kesimpulan yang benar dan reliabel mengenai konstrak yang diuji (Osterlind, 2010). Sumintono dan Widhiarso (2014) juga mengatakan bahwa validitas berdasarkan struktur internal menjelaskan seberapa baik pengukuran telah sesuai dengan ekspektasi teoretis. Azwar (2017a) mengatakan bahwa kesesuaian antara struktur konstrak yang diteorikan dengan data hasil tes dapat diestimasi melalui prosedur validasi berdasarkan struktur internal.

Oleh karena itu, melengkapi bukti validitas alat ukur kesabaran dengan menguji

(19)

struktur internal alat ukur tersebut adalah hal yang penting dan memungkinkan untuk dilakukan.

Validitas berdasarkan struktur internal dilakukan dengan memberikan skala yang telah dibuat kepada sejumlah sampel dalam sebuah populasi untuk memperoleh data dari lapangan. Menurut Sumintono dan Widhiarso (2014), teori tentang perilaku manusia harus berdasarkan data dan harus selalu diuji berdasarkan data dunia nyata. Hal ini merupakan ciri utama dalam penelitian empiris (Sumintono & Widhiarso, 2014). Tidak seperti sesuatu yang bisa diukur secara fisik, atribut psikologi adalah hal yang abstrak sehingga diperlukan pertimbangan tujuan tes dan interpretasinya dan didasari dengan validasi (Coaley, 2010).

Coaley (2010) mengatakan bahwa diperlukan pengukuran yang konkrit dan operasional meskipun terkadang konstrak bisa disimpulkan dari observasi sehari- hari. Dalam hal ini, teori kesabaran merupakan teori tentang perilaku manusia.

Kesabaran itu sendiri adalah hal yang abstrak. Meskipun kesabaran dapat disimpulkan dari observasi sehari-hari, hasil observasi tersebut belum tentu benar.

Hal ini dikarenakan salah satu kelemahan metode observasi adalah adanya observer bias, yaitu sejumlah eror yang berhubungan dengan kualitas personal observer, bisa berupa harapan, lebih memihak pada salah satu kategori, ataupun dipengaruhi oleh extraneous cues (variabel tambahan) (Sattler, 1992).

Alat ukur yang memiliki lebih banyak bukti validitas diperlukan untuk menunjukkan bahwa hasil yang diperoleh dari alat ukur tersebut menggambarkan atribut yang diukur dengan tepat. Proses validasi itu sendiri merupakan proses yang berkesinambungan. Menurut Osterlind (2010), alat ukur akan selalu ada yang perlu

(20)

dipelajari dan lebih banyak bukti yang diperlukan. Pencarian bukti validitas tidak ada habisnya. Oleh karena itu, sebuah alat ukur tidak akan pernah selesai divalidasi (Osterlind, 2010). Dengan melengkapi bukti validitas, yaitu validitas berdasarkan struktur internal, maka diharapkan alat ukur kesabaran ini dapat dikembangkan berdasarkan bukti validitas yang lain sehingga dapat digunakan untuk penelitian selanjutnya yang mengukur kesabaran pada masyarakat luas.

Penelitian ini akan menguji bukti validitas berdasarkan struktur internal dengan menggunakan pendekatan IRT, yaitu pemodelan Rasch. Pemodelan Rasch dapat menyetarakan jarak antara respon sangat tidak setuju ke tidak setuju dengan jarak dari respon tidak setuju ke netral, dan seterusnya melalui satuan logit. Hal ini bertujuan untuk mengubah data yang ordinal menjadi interval. Selain itu, tidak seperti pendekatan teori klasik, pemodelan ini juga dapat menghilangkan pengaruh perbedaan antar subyek dan data yang hilang dengan teknik estimasi dan kalibrasi (Retnawati, 2016; Sumintono & Widhiarso, 2014). Maksudnya adalah pemodelan Rasch dapat mendeteksi eror per individu dengan mengestimasi data yang hilang serta menyesuaikan data yang merupakan respon yang salah (Sumintono &

Widhiarso, 2014). Sehingga, data yang diperoleh tidak bergantung pada kelompok sampel yang digunakan (Osterlind, 2010). Tidak hanya bukti validitas berdasarkan struktur internal, pemodelan Rasch juga akan digunakan untuk melihat koefisien reliabilitas, yaitu dari segi responden, aitem-aitem, dan alat ukur secara keseluruhan.

Sehingga, hasil uji pada penelitian ini diharapkan dapat lebih tepat dan akurat.

(21)

B. Rumusan Masalah

Alat ukur kesabaran yang telah dikonstruksi Zega dan Rahmawati (2018) memiliki 57 aitem. Aitem-aitem tersebut telah melalui uji validitas isi dengan metode penilaian oleh ahli, daya diskriminasi, dan reliabilitas. Hasilnya, aitem- aitem yang dimuat dalam skala final berjumlah 38 aitem. Sebagian besar aitem memiliki permasalahan pada daya diskriminasi, sehingga terdapat aitem dengan validitas isi yang baik namun daya diskriminasinya tidak memuaskan. Salah satu faktor yang melatarbelakangi jeleknya indeks hasil daya diskriminasi adalah sampel kurang mampu memahami makna kalimat yang tertulis dalam skala. Untuk itu, peneliti terlebih dahulu harus memeriksa kembali aitem-aitem yang memiliki permasalahan pada daya diskriminasi sebelum menambah bukti validitas berdasarkan struktur internal. Selain itu, penelitian ini juga akan menambah jumlah rater untuk mengurangi eror dalam penilaian validitas berdasarkan isi. Oleh karena itu, rumusan masalah yang diajukan peneliti, yaitu:

1. Apakah hasil pengukuran aitem pada skala kesabaran terbukti valid mengukur kesabaran berdasarkan isi?

2. Apakah hasil pengukuran aitem pada skala kesabaran terbukti valid mengukur kesabaran berdasarkan struktur internal?

3. Apakah hasil pengukuran aitem pada skala kesabaran akurat dalam mengukur kesabaran?

(22)

C. Tujuan Penelitian

Tujuan penelitian ini adalah untuk menambah bukti validitas pada alat ukur kesabaran sehingga dapat dikembangkan dan digunakan oleh banyak pihak dari berbagai disiplin ilmu untuk mengukur tingkat kesabaran.

D. Manfaat Penelitian 1. Manfaat Teoritis

Hasil dari penelitian ini diharapkan dapat menambah referensi tentang kesabaran, validitas isi, validitas berdasarkan struktur internal, dan reliabilitas.

2. Manfaat Praktis

a. Hasil penelitian ini diharapkan dapat bermanfaat bagi peneliti berikutnya yang bermaksud untuk mengembangkan alat ukur kesabaran serta menggunakannya dalam meneliti hubungan kesabaran yang menggunakan konsep Subandi dengan variabel lainnya.

b. Merujuk pada manfaat praktis yang diajukan Zega dan Rahmawati (2018) dalam mengkonstruksi alat ukur ini, diharapkan alat ukur ini berguna untuk mengukur tingkat kesabaran individu pada berbagai kalangan di Indonesia, terutama di kota Medan. Dengan mengetahui tingkat kesabaran seseorang, diharapkan informasi tersebut dapat digunakan untuk mengetahui hal lain yang berkaitan dengan kesabaran.

(23)

E. Sistematika Penulisan

Sistematika penulisan dalam penelitian ini adalah sebagai berikut.

Bab I : Pendahuluan

Bab ini berisi latar belakang, rumusan masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan.

Bab II : Tinjauan Pustaka

Bab ini berisi teori mengenai kesabaran, validitas berdasarkan struktur internal, validitas isi, daya diskriminasi, dan reliabilitas.

Bab III : Metode Penelitian

Bab ini berisi metode dalam penelitian, yaitu definisi operasional, jenis penelitian, subyek penelitian, dan prosedur mengukur validitas berdasarkan struktur internal pada alat ukur kesabaran.

Bab IV : Hasil dan Pembahasan

Bab ini berisi gambaran umum data penelitian, deskripsi hasil penelitian, dan pembahasan hasil penelitian.

Bab V : Kesimpulan dan Saran

Bab ini berisi kesimpulan dari hasil penelitian yang diperoleh dan saran untuk penelitian selanjutnya.

(24)

BAB II

TINJAUAN PUSTAKA A. Kesabaran

1. Pengertian Kesabaran

Subandi (2011) meneliti konsep sabar dengan studi literatur dan penelitian empiris. Berdasarkan studi literatur melalui kitab suci dari agama Islam, Kristen, Hindu, dan Budha, serta tokoh-tokoh agama, disimpulkan bahwa sabar mempunyai banyak makna, yaitu pengendalian diri, menerima usaha untuk mengatasi masalah, tahan menderita, merasakan kepahitan hidup tanpa berkeluh kesah, kegigihan, bekerja keras, gigih dan ulet untuk mencapai suatu tujuan. Berdasarkan penelitian empiris yang dilakukan dengan meminta subyek mengisi angket terbuka, diperoleh 7 kategori tema, yaitu pengendalian diri (emosi dan keinginan); bertahan dalam situasi sulit; menerima kenyataan; berpikir panjang, tidak reaktif, tidak impulsif;

tidak putus asa meraih tujuan; sikap tenang, tidak tergesa-gesa, dan bersedia menunggu; serta memaafkan dan tetap menjalin hubungan sosial yang baik.

Setelahnya, hasil studi literatur dan penelitian empiris yang diperoleh kemudian dianalisis dengan teknik coding. Hasil tersebut kemudian dibandingkan.

Dari hasil analisa dan perbandingan, diperoleh kesimpulan bahwa kesabaran menurut Subandi (2011) adalah pengendalian diri, ketabahan, kegigihan, penerimaan kenyataan pahit dengan ikhlas dan bersyukur, serta bersikap tenang.

Selain Subandi, Al-Jawziyyah (1997; Zega & Rahmawati, 2018; Sabrina, 2018) juga membahas mengenai kesabaran. Menurut Al-Jawziyyah, beberapa tokoh mendefinisikan kesabaran sebagai karakteristik manusia yang baik atau sikap

(25)

yang positif, dengan virtue (nilai positif) yang membuat seseorang mencegah perbuatan buruk. Secara psikologis, kesabaran memanfaatkan driving force (kekuatan dorongan) untuk mendorong seseorang menuju hal yang baik dan restraining force (kekuatan menahan) untuk mencegah orang tersebut dari perbuatan yang membahayakan dirinya atau orang lain (Al-Jawziyyah, 1997).

El Hafiz (2017) juga mendefinisikan kesabaran sebagai kemampuan untuk menahan emosi, pikiran, perkataan, dan perilaku. Menahan disini harus dilakukan secara aktif, merupakan respons awal, bertujuan baik, dan taat aturan. Jika hal-hal tersebut tidak dipenuhi maka tidak dapat disebut sebagai kesabaran. Sehingga, jika seseorang mencoba menahan diri untuk menjual barangnya saat ini dan menunggu harga tinggi agar bisa memonopoli pasar tidak dapat dikategorikan sebagai perilaku sabar. Begitu juga dengan perilaku yang dilakukan setelah berkali-kali tidak menahan, misalnya berusaha menyalakan kendaraan berkali-kali walaupun sudah disarankan untuk menunggu sampai besok dan akhirnya ia menunggu hingga besok, tidak dapat dikategorikan perilaku sabar (El Hafiz, 2017).

2. Aspek Kesabaran

Aspek dalam konsep kesabaran menurut Subandi (2011) terbagi menjadi lima, yaitu:

a. Pengendalian diri

Subandi mengartikan pengendalian diri sebagai mampu menahan emosi dan keinginan, berpikir panjang, memaafkan kesalahan, toleransi terhadap penundaan.

Menahan emosi disini ditandai dengan tidak mudah marah, tidak memunculkan energi negatif bagi diri dan lingkungan, mengontrol ekspresi emosi, dan tidak

(26)

mencaci. Sedangkan menahan keinginan ditandai dengan menahan diri dari godaan nikmat dunia, tidak serakah, dan tidak tamak. Hal ini dapat dikaitkan dengan berpikir panjang, tidak reaktif, dan tidak impulsif, serta toleransi terhadap penundaan. Maksudnya adalah, ketika ingin marah, seseorang yang sabar akan cenderung menarik napas dan menahan diri dahulu agar dapat berpikir jernih dan bertindak logis. Selain itu, dapat juga dikaitkan dengan memaafkan kesalahan, yaitu jika seseorang bisa mengendalikan emosi negatif (marah), ia akan dapat berlapang dada dan memaafkan kesalahan (Subandi, 2011).

b. Ketabahan

Ketabahan yang dimakusd Subandi adalah bertahan dalam situasi sulit dengan tidak mengeluh. Situasi sulit yang dimaksud adalah yang sering dikatakan sebagai cobaan, misalnya situasi yang membuat seseorang tidak nyaman, tidak sesuai harapan, atau yang menimbulkan rasa sakit ataupun mengalami musibah.

Meskipun dalam situasi sulit, seseorang yang memiliki ketabahan akan tetap tegar, tidak mengomel, dan tidak mengeluh, serta mampu bangkit dari situasi tersebut.

Contohnya adalah ketika seseorang menjalani kehidupan yang tidak menyenangkan baginya, ia akan tetap melakukan apa yang bisa dilakukan dengan sebaik-baiknya.

Contoh lainnya adalah ketika dicemooh, ia akan tetap diam (Subandi, 2011).

c. Kegigihan

Ulet, bekerja keras untuk mencapai tujuan dan mencari pemecahan masalah adalah maksud dari kegigihan menurut Subandi. Maksudnya adalah seseorang tetap berusaha walaupun belum berhasil, orang yang gigih akan tetap optimis dan tidak cepat patah hati. Misalnya adalah ketika menanam tumbuhan, ia akan tetap merawat

(27)

tumbuhan tersebut sampai tumbuhannya tumbuh besar meskipun melewati proses yang lama dan rumit. Ataupun seseorang yang mengajari orang yang tidak mau mendengarkannya berkali-kali tanpa lelah sampai orang tersebut memahaminya (Subandi, 2011).

d. Menerima kenyataan pahit dengan ikhlas dan bersyukur

Kategori ini dapat dikaitkan dengan konsep acceptance, terutama self- acceptance, yaitu sejauh mana seseorang mampu menerima keadaan dirinya. Selain itu, berpikir positif atas semua keadaan dan menyikapi dengan lapang hati termasuk dalam kategori ini. Misalnya ketika terjadi musibah, orang yang sabar dapat menerimanya dan tidak menyesal yang berlebihan. Bersyukur adalah salah satu yang juga termasuk dalam kategori ini. Misalnya jika ada hal yang positif yang terjadi, orang tersebut harus bersyukur (Subandi, 2011).

e. Sikap tenang, tidak terburu-buru

Tenang yang dimaksud Subandi adalah ketenangan lahir dan batin. Sikap tenang ini diperlukan ketika menghadapi situasi yang membuat seseorang menunggu, misalnya ketika jalanan macet atau sedang menunggu antrian.

Ketenangan lahir dan batin maksudnya adalah meskipun seseorang menunjukkan perilaku menunggu, pikirannya juga harus tetap tenang dan santai. Contohnya adalah ketika menghadapi situasi yang sulit, ia tetap tenang (Subandi, 2011).

B. Validitas

1. Pengertian Validitas

Pada tahun 1927, Kelley mengatakan bahwa validitas adalah tentang apakah tes sungguh mengukur apa yang hendak diukurnya (Azwar, 2017a). Garrett pada

(28)

tahun 1937 menyatakan bahwa validitas tes adalah sejauh mana tes tersebut mengukur apa yang dikatakan akan diukur. Lalu, pada tahun 1988, Anastasi juga memberikan pernyataan yang sama, mengatakan bahwa definisi validitas yang paling sederhana adalah sebuah tes dikatakan valid jika mengukur apa yang dikatakan diukur. Namun pengertian ini ditolak karena kurangnya aspek psikologis yang penting (Osterlind, 2010) dan kurang kejelasan serta keakuratan (Coaley, 2010).

Aspek psikologis yang dimaksud adalah tidak hanya penegasan dari orang yang mengembangkan alat ukur (test developer), tetapi bukti-bukti substantif yang dapat membuktikan validitas suatu hasil tes. Teks Standards dari American Educational Research Association (dalam Osterlind, 2010) kemudian mendefinisikan validitas sebagai sejauh mana bukti dan teori mendukung interpretasi skor tes yang sesuai dengan tujuan penggunaan tes. Sejalan dengan teks Standards, validitas menurut Osterlind (2010) adalah sejauh mana informasi yang dihasilkan oleh tes sesuai, bermakna, dan berguna untuk membuat keputusan.

2. Sumber Bukti Validitas

Messick mengatakan bahwa validitas adalah argumen evaluasi (Osterlind, 2010). Untuk berargumen, evaluasi harus disertai bukti yang berasal dari berbagai sumber. Menurut teks Standards, sumber bukti dapat diperoleh dari lima cara, yaitu validitas berdasarkan isi tes, validitas berdasarkan proses respon, validitas berdasarkan struktur internal, validitas berdasarkan hubungan dengan variabel lain, dan validitas berdasarkan pertimbangan eksternal (Osterlind, 2010).

(29)

a. Validitas berdasarkan Isi Tes

Mengevaluasi bukti untuk menyimpulkan hasil tes yang valid hampir selalu melibatkan informasi tentang isi dari pengukuran, terutama domain konten atau konstrak. Berdasarkan teks Standards, pembuat tes harus terlebih dahulu mengembangkan deskripsi dari konstrak atau domain yang diinginkan. Deskripsi berdasarkan isi sangat membantu dalam pertimbangan awal untuk isi tes (Osterlind, 2010).

Sesuai dengan penjelasan teks Standards dan Osterlind (2010), validitas berdasarkan isi tes atau dalam beberapa literatur disebut validitas isi (content validity) adalah atribut untuk mengukur alat ukur itu sendiri dan sebaik apa alat ukur tersebut dikonstruk (Coaley, 2010). Azwar (2005; 2017a) juga mengatakan bahwa validitas isi menunjukkan sejauh mana aitem-aitem dalam tes mencakup keseluruhan kawasan isi yang hendak diukur oleh tes itu (aspek representasi) tetapi isinya juga harus tetap relevan dan tidak keluar dari batasan tujuan pengukuran (aspek relevansi). Sehingga dalam mengukur validitas isi, aspek representasi dan aspek relevansi harus diperhatikan.

Menurut Crocker dan Algina (2008), untuk mendapatkan bukti validitas berdasarkan isi tes dapat dilakukan dengan tahap-tahap sebagai berikut.

1) Tentukan domain pengukuran

2) Memilih yang ahli di bidang tersebut

3) Membuat rancangan untuk menyesuaikan aitem dengan domain 4) Mengumpulkan dan menyimpulkan data dari proses penyesuaian

(30)

Azwar (2005) mengatakan bahwa pengujian validitas isi menggunakan analisis rasional dan tidak menggunakan analisis statistika. Sehingga untuk mengembangkan isi tes yang baik dapat menggunakan penilaian dari ahli (expert judgement) (Coaley, 2010). Meminta para ahli untuk menilai aitem tes dapat sangat membantu dalam mengevaluasi validitas (Osterlind, 2010). Oleh karena itu, pengujian validitas isi juga harus dilakukan dengan seksama pada waktu pelaksanaan review oleh ahli. Namun sebelum itu, aitem-aitem dalam tes harus dipastikan sudah ditulis sesuai dengan blue-print, yaitu telah sesuai dengan batasan domain ukur yang sudah ditetapkan semula dan memeriksa apakah masing-masing aitem sudah sesuai dengan indikator perilaku yang hendak diungkapnya (Azwar, 2005).

Terdapat beberapa hal yang perlu diperhatikan dalam memilih ahli. Peneliti harus memastikan bahwa ahli memiliki definisi yang sama dengan peneliti mengenai variabel alat ukur yang akan dikonstruk. Tidak hanya itu, karakteristik aitem juga harus dijelaskan kepada ahli (Crocker & Algina, 2008). Objektivitas penilaian individual dapat ditingkatkan dengan memperbanyak penilai (Azwar, 2017a). Tetapi, dengan meningkatnya jumlah penilai, maka kemungkinan terjadinya ketidak sesuaian pendapat semakin besar. Oleh karena itu, hasil penilaian perlu dikuantifikasi. Kuantifikasi dapat dinyatakan dalam bentuk indeks validitas, yaitu dengan rasio validitas isi Lawshe’s CVR dan koefisien validitas isi Aiken’s V (Azwar, 2005; 2017a).

Content Validity Ratio (CVR) yang dirumuskan oleh Lawshe dapat digunakan untuk mengukur validitas isi aitem-aitem berdasarkan data empirik.

(31)

Pengukuran dilakukan dengan meminta sekelompok ahli untuk menilai apakah aitem dalam skala bersifat esensial atau tidak. Aitem dinilai esensial jika aitem tersebut dapat merepresentasikan tujuan pengukuran dengan baik. Penilaian esensi dan relevansi dilakukan dengan lima tingkatan skala, yaitu dari 1 (sama sekali tidak esensial dan tidak relevan) hingga 5 (sangat esensial dan sangat relevan). Rentang CVR adalah -1.00 sampai +1.00. CVR = 0.00 berarti 50% dari is menyatakan aitem adalah esensial sehingga aitem tersebut dinyatakan valid (Azwar, 2017).

Prosedur menentukan koefisien validitas isi Aiken’s V dimulai dari penilaian (judgement) suatu aitem oleh ahli (judge) sebanyak n orang atau penilaian aitem sebanyak m butir oleh satu ahli (Aiken, 1985). Penilaian dapat dibuat dengan skala yang nyaman dipakai dengan bilangan bulat berurut, misalnya 1, 2, 3, 4, 5 atau 0, 1, 2, 3 ataupun -3, -2, -1, 0, 1, 2, 3. Azwar (2017b) menggunakan angka antara 1 sampai 5 untuk mengukur koefisien validitas isi Aiken’s V. angka 1 menggambarkan sangat tidak mewakili atau sangat tidak relevan sementara angka 5 yaitu sangat mewakili atau sangat relevan. Rentang untuk koefisien V adalah 0 hingga 1 dengan nilai tinggi menunjukkan aitem tersebut memiliki validitas isi yang tinggi (untuk satu aitem yang dinilai oleh n ahli) atau sekelompok aitem memiliki validitas isi yang tinggi pada penilaian dari satu ahli (untuk m aitem yang dinilai oleh satu ahli) (Aiken, 1985).

Retnawati (2016) mengungkapkan bahwa terdapat tiga kategori hasil uji validitas isi dengan koefisien V, yaitu:

(32)

Tabel 1. Implikasi Koefisien V Koefisien V Implikasi

< 0,4 0,4 – 0,8

> 0,8

Validitas rendah Validitas sedang Validitas tinggi b. Validitas berdasarkan Proses Respon

Respon subyek diperlukan untuk menguji proses mental atau kognitif subyek ketika mengerjakan tes. Validitas berdasarkan proses respon menurut teks Standards adalah bukti mengenai kesesuaian antara konstrak dengan respon yang disampaikan subyek (examinee) (Padilla & Benitez, 2014). Teks Standards mengatakan bahwa jika tes ini ditujukan untuk menguji mathematical reasoning, penting untuk menentukan apakah subyek memang melakukan reasoning ketika mengerjakannya dan bukan mengikuti algoritma standar. Tes yang membutuhkan reasoning rawan karena bisa saja subyek menggunakan informasi dari ingatan daripada reasoning dalam mengerjakan tes (Osterlind, 2010).

Ada beberapa metode untuk mengukur validitas berdasarkan proses respon.

Metode untuk mengukurnya menggunakan variabel laten (variabel yang tidak bisa diukur secara langsung) dan proses sebab akibat dari konstrak, yaitu analisis variabel laten, structural equation modeling (SEM), hierarchical linear modeling (HLM), conjectural analysis, path analysis, dan bahkan meta-analyses. Taksonomi yang mengelompokkan proses kognitif juga berguna, misalnya Taxonomy of Educational Objectives milik Bloom ataupun A Comprehensive Framework for Instructional Objectives milik Hannah dan Michaelis. Tetapi kedua taksonomi ini perlu diperhatikan karena mereka bisa saja menjadi rute yang tidak terlalu tepat untuk menunjukkan proses respon subjek (Osterlind, 2010).

(33)

c. Validitas berdasarkan Struktur Internal

Validitas berdasarkan struktur internal dalam beberapa literatur disebut dengan validitas konstruk. Menurut Murphy dan Davidshofer (2005), tujuan dari validitas berdasarkan struktur internal adalah menentukan apakah tes memberikan pengukuran yang baik atas suatu konstrak. Osterlind (2010) juga mengatakan bahwa fokus utama dari validitas ini adalah membuat kesimpulan yang benar dan reliabel mengenai konstrak yang diukur.

Menurut Osterlind (2010), diperlukan pengujian teori yang mendasari alat ukur untuk mulai menguji struktur internal suatu alat ukur. Semakin jelas suatu teori maka semakin besar kemungkinan kesesuaian aitem dengan teori. Ada beberapa cara untuk menguji struktur internal suatu alat ukur secara empris dengan metode psikometrik, beberapa di antaranya adalah common factor model, multitrait- multimatrix method (MMTM), dan Item Response Theory (IRT) (Osterlind, 2010).

Common factor model adalah tes yang terdiri dari aitem-aitem yang memiliki kesamaan (commonality) dan pengaruh yang unik. Namun, kesamaan tersebut tidak tersebar secara merata, sehingga common factor yang ada tidak disebar secara merata. Konsekuensi dari model ini adalah skor dari peserta tes memiliki fungsi yang tidak hanya untuk mengetahui pengetahuan individu tentang konstrak tersebut tetapi juga sejauh apa konstrak yang diukur aitem. Model ini biasanya diukur dengan Factor Analysis (FA) atau Principal Components Analysis (PCA) (Osterlind, 2010).

Selain common factor model, juga ada MMTM yang dapat digunakan jika terdapat dua trait atau lebih yang diukur oleh dua macam metode atau lebih. Dasar

(34)

pemikiran validasi ini adalah adanya validitas yang baik diperlihatkan oleh korelasi yang tinggi antara dua pengukuran terhadap trait yang sama oleh dua metode yang berbeda, atau sebaliknya, korelasi yang rendah antara dua pengukuran terhadap trait yang berbeda walaupun menggunakan metode yang serupa (Azwar, 2017b).

Istilah yang terdapat dalam MMTM adalah reliabilitas tes (r), validitas konvergen (cv), dan validitas divergen (dv1 dan dv2). Reliabilitas tes (r) adalah korelasi antara metode yang sama dan trait yang sama. Korelasi antara dua metode yang berbeda untuk menguji konstrak (trait) yang sama disebut validitas konvergen (cv). Lalu, korelasi antara metode yang berbeda yang mengukur dua konstrak yang berbeda disebut validitas divergen (dv1 dan dv2).

Interpretasi data dari MMTM tidak sulit, tetapi harus memerhatikan beberapa hal, yaitu pertama, karakteristik spesifik untuk korelasi diperlukan agar bukti bisa dianggap bermakna untuk kesimpulan yang berhubungan dengan konstrak. Kedua, indikator reliabilitas harus lumayan tinggi, yaitu 0,6 ke atas. Nilai cv minimal harus berbeda secara signifikan dari random (cv = 0). Semakin tinggi nilai r dan cv, maka semakin sah bukti validitas konvergen. Setidaknya, nilai r dan cv harus lebih besar dari nilai dv2 karena kegagalan dari kondisi ini menunjukkan kurangnya kekuatan untuk validitas konvergen. Ketiga, korelasi koefisien cv harus lebih besar dari koefisien dv1 dan dv2. Keempat, harus ada pola yang mirip antara koefisien dv1 dan dv2 di setiap segitiga (Osterlind, 2010).

Menguji validitas berdasarkan struktur internal juga dapat dilakukan dengan IRT (Item Response Theory). IRT adalah teori psikologis tentang pengukuran mental yang menentukan informasi tentang latent traits (karakteristik yang tidak

(35)

terlihat) dan karakteristik stimulus yang digunakan untuk menggambarkannya.

Metode IRT menggunakan dua aspek dasar dari penilaian kognitif, yaitu estimasi karakteristik stimulus pengukuran (misalnya tingkat kesulitan atau daya diskriminasi) dan kesimpulan dari kemampuan atau keahlian laten peserta (Osterlind, 2010). Hal ini sejalan dengan yang dikatakan Sumintono dan Widhiarso (2014) bahwa IRT merupakan kerangka umum dari fungsi matematika yang khusus menjelaskan interaksi antara orang (person) dan butir soal/item (test items).

IRT dapat menjelaskan tidak hanya nilai hubungan dan korelasi, tetapi juga memberikan gambaran yang lebih jelas tentang apa yang terjadi antara orang dan aksi yang dilakukan melalui kalibrasi instrumen. Kalibrasi adalah penyetaraan metrik ukur. Dengan IRT, data hasil pengukuran yang didapat melalui penerapan sistem pengukuran standar yang digunakan dalam ilmu eksakta juga dapat dilakukan dalam penelitian ilmu sosial (Sumintono & Widhiarso, 2014).

Salah satu model IRT yang terkenal adalah pemodelan Rasch. Menurut Sumintono dan Widhiarso (2014), terdapat beberapa kelebihan yang dimiliki oleh Rasch Model. Pemodelan Rasch dapat mengakomodasi pendekatan probabilitas dalam memandang atribut sebuah objek ukur sehingga pemodelan Rasch tidak bersifat deterministik dan mampu mengidentifikasi objek ukur secara lebih cermat.

Selain itu, pemodelan Rasch juga mengatasi masalah perbedaan antarbutir.

Pemodelan Rasch juga mengatasi masalah keintervalan data dengan cara mengakomodasi transformasi logit, atau menerapkan logaritma pada fungsi rasio odd. Pemodelan Rasch juga cukup tahan (robust) terhadap data hilang, pemodelan ini sangat fleksibel terhadap berbagai struktur data. Selain itu, pemodelan Rasch

(36)

telah memenuhi pengukuran yang objektif, yaitu terbebas dari pengaruh jenis subjek, karakteristik penilai (rater), dan karakteristik alat ukur. Teknik estimasi dan kalibrasi yang dipakai dalam pemodelan telah mengeliminasi pengaruh dari ketiga faktor tersebut (Sumintono & Widhiarso, 2014).

Analisis validitas berdasarkan struktur internal menggunakan model Rasch dapat diukur dengan ketepatan pengukuran, yaitu apakah aitem dimengerti dengan baik oleh responden. Hal ini dapat diukur dengan outfit MNSQ (Mean-Square), outfit ZSTD (Z-Standard), dan PTM (Point Measure Correlation). Outfit adalah outlier-sensitive fit, yaitu mengukur kesensitifan pola respons terhadap aitem dengan tingkat kesulitan tertentu pada responden (person), atau sebaliknya. Outfit dapat mendeteksi respons yang salah dari person, misalnya tidak bisa mengerjakan soal yang mudah padahal mempunyai kemampuan tinggi (careless) atau mampu mengerjakan soal yang sulit dengan kemampuan rendah (lucky guess) (Sumintono

& Widhiarso, 2014).

Mean-square fit statistic memperlihatkan keacakan, yaitu jumlah distorsi dalam sistem pengukuran. Nilai yang diharapkan adalah 0,5 – 1,5. Jika nilai yang didapat kurang dari nilai tersebut berarti aitem terlalu mudah ditebak (data overfit the model) sementara nilai yang lebih besar menunjukkan aitem tidak mudah diprediksi (data underfit the model) (Sumintono & Widhiarso, 2014).

Tabel 2. Implikasi Nilai Mean-square

Nilai Mean-square Implikasi

> 2,0 Data tidak diharapkan jika sesuai dengan model (secara sempurna). Namun, dengan sampel yang besar,

ketidaksesuaiannya mungkin lebih kecil.

1,5 – 2,0 Data tampak tidak dapat diprediksi 0,5 – 1,5 Data mempunyai perkiraan yang logis

< 0,5 Data terlalu mudah diprediksi

(37)

Standardized fit statistic adalah uji-t untuk hipotesis “apakah data sesuai (fit) dengan model?” Hasil dari uji-t berupa nilai z, yaitu penyimpangan unit yang menjelaskan signifikansi kesesuaian data dengan model. Rentang nilai z yang baik adalah -2,0 < x < +2,0 (Sumintono & Widhiarso, 2014).

Tabel 3. Implikasi Nilai Outfit ZSTD

Nilai ZSTD Implikasi

≥ 3,0 Menurunkan kualitas sistem pengukuran.

2,0 – 2,9 Kurang bagus untuk pembuatan instumen, tetapi tidak menurunkan kualitas.

-1,9 – 1,9 Kondisi yang baik untuk pengukuran.

≤ -2,0 Kurang produktif untuk pengukuran, namun tidak menurunkan kualitas, kemungkinan bisa menyebabkan kesalahan dengan reliabilitas yang tinggi.

Nilai Point Measure Correlation yang digunakan adalah 0,4 < Pt Measure Corr

< 0,85 (Sumintono & Widhiarso, 2014).

d. Validitas berdasarkan Hubungan dengan Variabel Lain

Validitas berdasarkan hubungan dengan variabel lain dalam beberapa literatur sering disebut sebagai validitas berdasarkan kriteria. Bukti kriteria sering dikenal dengan bukti prediktif (predictive-related evidence) dan bukti konkuren (concurrent-related evidence). Keduanya sama-sama menandakan hubugnan antara tes dan kriteria eksternal. Bedanya adalah bukti prediktif adalah indikator yang terbentuk dari perbandigan antara tes dan kriteria administrasi posttest (Osterlind, 2010). Sebagai tambahan, Azwar (2017a) menyatakan bahwa bukti prediktif dapat berfungsi sebagai prediktor bagi performansi individu di waktu yang akan datang.

Sedangkan bukti konkuren diperoleh dengan membandingkan suatu tes dengan tes yang relevan yang bertujuan ukur yang sama (Azwar, 2017a).

Masalah yang muncul dari bukti validitas berdasarkan hubungannya dengan variabel lain adalah masalah kriteria. Masalahnya adalah reliabilitas kriteria

(38)

tergantung pada korelasi dengan kriteria eksternal, yang juga mempunyai kekurangan. Secara logis, kestabilan tidak akan tercapai. Namun, para ahli menemukan solusinya, yaitu jika koefisien korelasi yang diperoleh 0,6 atau 0,7 maka interpretasi hasil tes dapat digunakan.

e. Validitas berdasarkan Pertimbangan Eksternal 1) Face validity sebagai sumber bukti

Face validity adalah ketika peserta yang baru pertama kali melihat alat tes tersebut tidak boleh merasa dihadapkan pada dokumen yang asing, yang sering merupakan hasil persiapan yang tidak profesional. Validitas ini tidak dapat diuji dengan metode statistika. Namun bukan berarti tampilan alat tes tidak penting.

Menyediakan alat tes yang terlihat dan terasa profesional adalah tanggung jawab yang berhubungan dengan validitas (Osterlind, 2010).

2) Generalisasi validitas

Teks Standards mengartikan generalisasi validitas sebagai sebuah sumber bukti yang menekankan masalah terkait derajat bukti validitas berdasarkan hubungan tes-kriteria dapat digeneralisasi dengan situasi baru tanpa validasi lebih lanjut mengenai situasi baru tersebut (Osterlind, 2010). Dengan kata lain, pada keadaan tertentu, evaluasi atau penelitian yang pernah dilakukan dapat digunakan pada situasi baru.

3. Faktor yang Memengaruhi Validitas

Menurut Coaley (2010), terdapat beberapa faktor yang dapat menjadi sumber eror yang memengaruhi pengukuran validitas, yaitu:

(39)

a. Batasan jangkauan data

Mendapatkan koefisien yang tinggi memerlukan skor yang cukup bervariasi untuk diukur. Jika banyak orang yang mendapat skor yang hampir sama, maka akan sulit untuk membedakan mereka. Batasan jangkauan data juga muncul jika sampel terlalu homogen dalam hal usia, jenis kelamin, dan karakteristik kepribadian yang dapat memengaruhi korelasi karena jarak skor yang sempit (Coaley, 2010).

b. Pengurangan sampel

Pengurangan sampel juga dapat menyebabkan jangkauan data menjadi terbatas. Namun sekarang sudah ada program yang dapat menghitung nilai koefisien validitas seakan tidak ada batasan jangkauan data atau pengurangan sampel (Coaley, 2010).

c. Ukuran sampel

Semakin kecil ukuran sampel, semakin besar jumlah eror yang dihasilkan.

Sampel dengan ukuran kecil secara statistik dikatakan tidak stabil karena sampel dengan ukuran kecil dapat menyebabkan hasil yang berbeda cukup jauh jika dibandingkan dengan ukuran sampel yang lebih besar (Coaley, 2010).

d. Atenuasi

Jika reliabilitas suatu kriteria rendah, maka koefisien validitas juga bisa berkurang. Korelasi antara dua pengukuran ini (validitas dan reliabilitas) disebabkan oleh atenuasi, yaitu karena koefisien validitas dibatasi oleh reliabilitas.

Tidak ada tes yang koefisien validitasnya lebih tinggi dari reliabilitas. Namun, ahli statistik membuat rumus agar bisa memperkirakan validitas asli dengan mengetahui

(40)

reliabilitas suatu kriteria pengukuran dan hubungannya dengan predictor (Coaley, 2010).

e. Kontaminasi kriteria

Kontaminasi kriteria melibatkan bias dalam skor kriteria dan variasi jenis pengukuran yang digunakan sebagai kriteria. Validitas akan lebih besar jika faktor yang tidak berhubugnan dengan skor kriteria dikurangi (Coaley, 2010).

f. Asumsi

Terdapat asumsi bahwa untuk mendapatkan koefisien validitas, hubungan antara dua variabel yang digunakan harus linear. Dengan begitu, pengukuran predictor dapat memprediksi skor tinggi dan rendah dengan akurat. Oleh karena itu, koefisien menjadi dikurangi. Asumsi lain adalah struktur tes juga dapat menentukan validitas pengukuran (Coaley, 2010).

C. Reliabilitas 1. Pengertian

Reliabilitas menurut Osterlind (2010) adalah presisi dalam penilaian mental (mental appraisal). Presisi ditentukan dengan ketergantungan atau konsistensi dari pengukuran paralel yang acak pada beberapa penilaian (appraisal). Reliabilitas berlaku dalam dua konteks. Yang pertama adalah reliabilitas menunjukkan presisi di antara alat ukur yang mengukur mental yang diberikan dalam bentuk indeks reliabilitas. Yang kedua adalah pada subjek secara intraindividual (perbandingan dengan individu itu sendiri) yang ditunjukkan dengan standard eror of measurement (SEM). Indeks dan SEM ini kemudian diintegralkan menjadi reliabilitas (Osterlind, 2010).

(41)

Konsep reliabilitas berhubungan dengan kemampuan untuk mengulang (repeatability) dan menghasilkan kembali (reproducibility) (Coaley, 2010).

Osterlind (2010) juga mengatakan bahwa percobaan yang berulang, semakin konsisten pengukuran yang dihasilkan dari sampel, semakin besar reliabilitasnya.

Tetapi dalam praktiknya, pengukuran tidak pernah konsisten dengan sempurna (Murphy & Davidshofer, 2005). Seperti yang dikatakan Coaley (2010), setiap pengukuran tidak bisa tepat secara keseluruhan karena akan selalu terdapat eror.

Maka, semakin reliabel suatu pengukuran, semakin kecil eror yang ada pada skor hasil dan semakin tinggi tingkat kepercayaan dalam menginterpretasikannya (Osterlind, 2010).

2. Metode Pengujian Reliabilitas

Menurut Murphy dan Davidshofer (2005), reliabilitas dapat dikembangkan dengan empat metode, yaitu metode tes-ulang (test-retest), metode bentuk paralel (alternate forms), metode belah dua (split-half), dan metode konsistensi internal (internal consistency).

a. Metode tes-ulang

Metode ini dilakukan dengan cara langsung mengukur derajat kekonsistenan suatu skor tes dari satu administrasi tes ke yang berikutnya. Langkah-langkah metode ini adalah (Murphy & Davidshofer, 2005):

1) Mengadministrasi tes ke satu kelompok individu.

2) Mengadministrasi ulang tes yang sama ke kelompok yang sama beberapa waktu kemudian.

(42)

3) Korelasikan (hubungkan) skor set pertama dan set kedua. Korelasi ini digunakan untuk memperkirakan reliabilitas tes.

Metode ini digunakan dengan alasan bahwa jika tes yang sama dilakukan dua kali dan setiap tes tersebut paralel dengan tes itu sendiri, maka perbedaan pada dua skor tes akan disebabkan hanya oleh kesalahan pengukuran (eror). Hal ini berlaku untuk pengukuran fisikal namun argument ini sering tidak sesuai untuk pengukuran psikologis karena seringnya tidak mungkin untuk mempertimbangkan administrasi kedua dari suatu tes paralel dengan pengukuran yang pertama (Murphy &

Davidshofer, 2005).

Beberapa alasan mengapa pengadministrasian kedua akan menghasilkan skor yang berbeda dari pengadministrasian pertama, yaitu yang pertama, karakteristik atau atribut yang diukur mungkin berubah antara tes pertama dan tes berikutnya.

Kemudian, pengalaman menggunakan tes tersebut dapat mengubah skor murni (true score) seseorang, yang dinamakan reactivity. Selain itu, diharuskan untuk memperhatikan efek sisa (carryover effect), terutama jika jarak antara tes dan retest pendek. Ketika diulang, orang akan mengingat jawaban pertama mereka yang dapat memengaruhi jawaban pada retest. Mahal dan memakan waktu dalam melakukan pengulangan tes juga menjadi masalah disini. Sehingga, metode test-retest paling berguna digunakan ketika seseorang tertarik untuk mengukur stabilitas jangka panjang (Murphy & Davidshofer, 2005).

b. Metode bentuk paralel

Metode ini memperkirakan reliabilitas dengan mengembangkan suatu tes paralel yang mempunyai kemungkinan paling tinggi ekivalen dalam hal konten (isi),

(43)

proses respon, dan karakteristik statistik. Metode ini mengatasi masalah metode tes- ulang dalam hal efek sisa dan efek reactivity. Akan tetapi, metode bentuk paralel juga memiliki beberapa kekurangan, yaitu karena dua administrasi tes yang terpisah diperlukan, metode ini bisa menjadi mahal dan tidak praktis seperti tes-ulang.

Mengembangkan beberapa bentuk paralel dari suatu tes juga mahal dan sulit untuk menjamin dua bentuk paralel tes merupakan pengukuran yang paralel. Oleh karena itu, jika bentuk-bentuk paralel suatu tes tidak dikonstruk dengan baik maka akan diperoleh perkiraan reliabilitas yang rendah karena kurangnya ekivalensi antara dua bentuk paralel tes tersebut (Murphy & Davidshofer, 2005).

c. Metode belah dua

Metode ini mengatasi masalah kesulitan mengembangkan bentuk paralel dan juga kebutuhan untuk dua administrasi tes yang terpisah. Oleh karena itu, metode ini dapat mengadministrasi tes tersebut pada satu waktu dengan membagi dua suatu tes lalu menghubungkan skor pada setengah bagian pertama dan skor pada setengah bagian yang lain. Korelasi antara dua bagian ini yang digunakan untuk memperkirakan reliabilitas tes (Murphy & Davidshofer, 2005).

Ada beberapa cara membagi tes pada metode ini. Misalnya jika ada 40 aitem, dapat dibagi dua menjadi nomor 1-20 untuk bagian pertama dan 21-40 untuk bagian kedua. Namun cara ini bisa saja tidak menghasilkan estimasi reliabilitas yang baik karena bagian pertama dan kedua bisa secara sistematis berbeda. Oleh karena itu, untuk membagi dua suatu tes, kedua bagian harus sama sebisa mungkin, baik dalam isi maupun probabilitas keadaan responden. Cara lain membagi dua suatu tes adalah dengan membagi berdasarkan nomor ganjil dan genap. Cara ini menjamin tiap

(44)

bagian mempunyai jumlah aitem yang sama (equal) dari awal, tengah, dan akhir tes yang asli (Murphy & Davidshofer, 2005).

Kelemahan metode ini adalah fakta bahwa banyak cara untuk membagi tes.

Dengan begitu, estimasi reliabilitas akan berbeda tergantung cara suatu tes dibagi.

Meskipun cara membagi berdasarkan nomor ganjil dan genap logis, konsep tersebut masih abstrak dan belum tentu koefisien reliabilitas yang didapat akurat. Oleh karena itu, sulit membuat argumen bagaimana membagi suatu tes (Murphy &

Davidshofer, 2005).

d. Metode konsistensi internal

Metode konsistensi internal merupakan metode yang paling berbeda dengan metode sebelumnya. Metode ini dapat diadministrasi pada satu tes terhadap sekelompok individu. Setelah itu, korelasi di antara semua aitem dan rata-rata dari interkorelasi dikomputasi. Kemudian metode ini menggunakan formula untuk memperkirakan reliabilitasnya. Formula yang digunakan memberikan estimasi yang sudah distandarisasi (Murphy & Davidshofer, 2005).

Ada dua cara untuk menghubungkan metode konsistensi internal dan metode memperkirakan reliabilitas, yaitu secara matematis dan konseptual. Secara matematis, metode konsistensi internal berhubungan dengan metode belah dua.

Rata-rata koefisien reliabilitas dari semua kemungkinan pembagian (belah dua) sama dengan koefisien alpha yang menggambarkan konsistensi internal suatu tes.

Perbedaan antara metode belah dua dan konsistensi internal adalah perbedaan dalam analisis unit. Metode belah dua membandingkan satu bagian tes dengan

(45)

bagian lain dalam tes tersebut sedangkan metode konsistensi internal membandingkan setiap aitem dengan aitem lainnya (Murphy & Davidshofer, 2005).

Secara konseptual, estimasi konsistensi internal mengatakan bahwa reliabilitas adalah fungsi dari jumlah observasi yang dibuat seseorang dan sejauh mana aitem mewakilkan observasi untuk hal yang sama yang diobservasi aitem lain.

Jika setiap aitem pada tes mengukur hal yang sama seperti aitem lainnya dan jumlah aitemnya banyak, maka menurut metode konsistensi internal, tes tersebut akan reliabel (Murphy & Davidshofer, 2005).

Reliabilitas berdasarkan metode konsistensi internal dapat diuji menggunakan pemodelan Rasch. Pemodelan Rasch membagi koefisien reliabilitas menjadi tiga, yaitu koefisien reliabilitas instrumen (alpha Cronbach), koefisien reliabilitas person, dan koefisien reliabilitas aitem. Implikasi untuk tiap koefisien reliabilitas dapat dilihat pada tabel 4 dan 5 (Sumintono & Widhiarso, 2014).

Tabel 4. Implikasi Koefisien Reliabilitas Instrumen

Koefisien Alpha Cronbach Implikasi

< 0,5 Buruk

0,5 – 0,6 Jelek

0,6 – 0,7 Cukup

0,7 – 0,8 Bagus

> 0,8 Bagus sekali

Tabel 5. Implikasi Koefisien Reliabilitas Person dan Aitem Koefisien Person Reliability & Item

Reliability Implikasi

< 0,67 Lemah

0,67 – 0,80 Cukup

0,81 – 0,90 Bagus

0,91 – 0,94 Bagus sekali

> 0,94 Istimewa

Implikasi koefisien reliabilitas pada tabel 4 merupakan implikasi secara umum. Menurut Murphy dan Davidshofer (2005), tinggi rendahnya koefisien

(46)

reliabilitas tergantung pada tujuan penggunaan alat ukur. Koefisien reliabilitas yang tinggi penting ketika alat ukur digunakan untuk membuat keputusan final atau ketika membagi orang ke dalam beberapa kelompok yang memerlukan perbedaan individu yang relatif kecil. Koefisien reliabilitas yang lebih rendah dapat diterima ketika alat ukur digunakan untuk mendapatkan data awal atau ketika pembagian kelompok dapat melibatkan perbedaan individu yang cukup besar. Oleh karena itu, koefisien sebesar 0,95 adalah standard untuk alat ukur intelegensi. Sedangkan koefisien sebesar 0,70 cukup untuk alat ukur yang digunakan untuk penyeleksian atau keputusan awal. Koefisien reliabilitas sebesar 0,60 tidak dapat diterima karena angka tersebut terlalu rendah.

3. Faktor yang Memengaruhi Reliabilitas

Faktor yang memengaruhi reliabilitas adalah eror. Eror perlu diminimalisir agar dapat meningkatkan reliabilitas. Jensen dalam Coaley (2010) mengungkapkan beberapa sumber eror, yaitu sumber yang berhubungan dengan kandidat, tes, prosedur, dan lingkungan.

a. Sumber yang berhubungan dengan responden

Beberapa hal yang dapat memengaruhi seseorang dalam menjawab tes adalah keadaan dia, familiarity dan latihan, serta cara menjawabnya. Keadaan responden ketika mengerjakan tes dapat bervariasi. Keadaan tersebut di antaranya adalah perasaan, kecemasan, motivasi, kesejahteraan secara umum, kelelahan, dan fokus.

Selain itu, familiarity dan latihan dapat memengaruhi skor seseorang karena mereka sudah mengerjakan banyak tes yang seperti itu. Ada juga responden yang

(47)

mengerjakan tes dengan menebak, hal tersebut berpengaruh terutama ketika tes tersebut mengukur kemampuan dan reasoning (Coaley, 2010).

Sebagai tambahan, Murphy dan Davidshofer (2005) juga mengungkapkan bahwa perbedaan individu memengaruhi reliabilitas suatu pengukuran. Suatu tes dirancang untuk mengukur perbedaan individu. Namun jika sekelompok individu tidak begitu berbeda maka akan sulit untuk mengembangkan atribut yang reliabel.

b. Sumber yang berhubungan dengan tes

Jumlah aitem dan korelasi antaraitem memengaruhi koefisien reliabilitas (Murphy & Davidshofer, 2005). Menurut Coaley (2010), aitem dalam tes hanyalah sampel kecil dari semua yang bisa ditanyakan. Ketika domain suatu pengukuran terlalu besar, aitem-aitem yang dimuat harus dipastikan mewakili keseluruhan domain. Konstruksi aitem yang buruk juga merupakan sumber eror. Ambiguitas aitem, ada lebih dari satu jawaban yang benar, kejelasan instruksi, dan desain prosedur untuk merespon juga merupakan faktor yang dapat memengaruhi performa (Coaley, 2010).

c. Sumber prosedur

Sumber ini berkaitan dengan proses pengadministrasian tes. Apakah terdapat intrupsi ketika membacakan prosedur, kenyamanan responden saat itu, tingkat keributan dan juga penyontekan dapat menjadi sumber eror. Selain itu, pemahaman responden, batasan waktu, menjawab semua aitem dengan benar juga memengaruhi.

Penggunaan kunci skoring dan pengelolaan data juga merupakan sumber eror (Coaley, 2010).