• Tidak ada hasil yang ditemukan

VALIDASI DAN RELIABILITAS

N/A
N/A
Protected

Academic year: 2022

Membagikan "VALIDASI DAN RELIABILITAS"

Copied!
14
0
0

Teks penuh

(1)

VALIDASI DAN RELIABILITAS

VALIDASI DALAM PENGUKURAN PENDAHULUAN

Pembahasan pada bab ini menunjukkan bahwa kita memerlukan skala pengukuran yang dapat kita andalkan atau reliabel. Tetapi reliabel saja tidak cukup. Kita juga perlu sebuah skala pengukuran yang valid. Validasi di sini ialah sejauh mana variabel tertentu mendasari kovariansi dari item yang ada. Bila kita sedang membicarakan suatu variabel laten, seperti apa ia memberi efek atau membagi pengaruhnya pada setiap item yang ada dalam sebuah skala pengukuran. Ini kita sebut dengan Construct Validity, yaitu sejauh mana item (measured variabel) mengukur suatu variabel konseptual (konstruk) sebagaimana ia dikembangkan. Kita mengatakan ada construct validity ketika ia mengukur apa yang seharusnya ia ukur.

A. TIPE-TIPE VALIDASI DALAM PENELITIAN

Beberapa penulis mengelompokkan tipa-tipe validity secara berbeda. Perbedaannya kadang- kadang tidak kentara, sehingga sulit membedakannya. Strangor (2010, p.96)

mengelompokkannya seperti tabel berikut :

Tipe Validity Deskripsi

Construct Validity Sejauh mana suatu variabel pengukuran (item) mengukur suatu variabel konsep (konstruk).

- Face validity Sejauh mana varibael pengukuran (item) terlihat sesuai mengukur suatu variabel konsep.

- Content Validity Sejauh mana suatu variabel pengkuran terlihat mengukur secara tepat meliput keseluruhan ranah dari variabel konsep.

- Convergent Validity Sejauh mana suatu variabel pengukuran didapati terkait dengan variabel pengukur lain yang dirancang untuk mengukur variabel konsep yang serupa.

- Discriminant Validity Sejauh mana suatu variabel pengukuran didapati tidak terkait dengan sebuah variabel konsep yang lain.

Criterion Validity Sejauh mana skala pengukuran berkorelasi dengan suatu variabel perilaku yang lain.

- Predictive Validity Sejauh mana suatu variabel pengukuran berkorelasi atau dapat memprediksi suatu perilaku di masa datang.

- Concurrent Validity Sejauh mana suatu skala pengukura berkorelasi dengan skala pengukur perilaku pada saat yang sama.

1. Face Validity

Ini merupakan indikasi awal untuk menilai construct validity secara subjektif. Face validity sering disebut juga dengan sejauh mana ia terlihat memadai untuk mengukur suatu konstruk.

(2)

Mari kita lihat bagaimana “face validity” untuk skala pengukuran self esteem berikut.

• Saya merasa memiliki sejumlah karakter baik pada diri saya.

• Saya mampu melakukan hal-hal yang bisa dilakukan oleh orang lain.

Dari kedua item contoh ini, kita dapat segera menilai bahwa mereka memang pantas atau memadai untuk mengukur rasa bangga seseorang. Kalau kedua item itu kita gunakan untuk keperluan mengukur tingkat kecerdasan seseorang, segera mengatakan “kurang atau tidak valid”.

2. Content Validity

Content Validity terkait dengan derajat sejauh mana suatu variabel pengukuran memadai dalam merepresentasikan ranah yang berhubungan dnegan variabel konsep yang sedang kita ukur.

Misalnya, kalau orang mengukur inteligensia, bila item-nya hanya berisikan pertanyan terkait ilmu ukur (geometri), maka rasanya kurang cukup atau kita bisa katakan kurang content validity-nya.

Orang juga harus melihat kecakapan verbal, pengetahuan dan lain sebagainya.

De Vellis (2003) mengatakan content validity dapat memeriksa sejauh mana rangkaian item pada skala merefleksikan suatu domain content – ranah kontenya. Dengan content validity, kita dapat melakukan evaluasi ketika ranah yang kita amati begitu jelas rumusannya. Sebagai contoh, betapa mudahnya kita melihat dengan jelas konsep yang harus kita ajarkan ke anak SD. Misalnya seperti

“jalan”, “makanan”, “mobil”. Namun demikian, ketika ranah yang kita amati hal-hal yang rumit, seperti “keyakinan”, “sikap”, atau “kecenderungan” ceritanya menjadi lain. Hal ini karena untuk menentukan dengan akurat rentang item yang bisa digunakan serta mana sampel yang representatif kalau kita mau gunakan sebagian di antaranya (sampel).

Kapan kita bisa dengan yakin mengatakan sebuah skala memiliki content validity? Secara teori bisa mengatakannya ketika item nya terpilih secara random dari item sesuai yang tersedia/ada. Mari kita kembali ke contoh konsep atau kosakata untuk anak-anak SD tadi. Kata-kata seperti “jalan”,

“warna”, “besar” bisa kita pilih dari rangkaian “kata-kata yang sesuai dengan anak SD” dari perbendaharaan bahasa Indonesia kita. Tidak sulit untuk mendefinisikan kata-kata yang mana saja, dan mudah memilih di antaranya sebagai sampel dari item. Tidak begitu yang terjadi bila kita ingin memilih item yang tersedia untuk misalnya “persepsi” atas sesuatu. Sering kali item-nya tidak tersedia.

Karena itulah dalam pengembangan sebuah skala, tersedia berbagai cara untuk meningkatkan kemungkinan kita menggunakan item yang sesuai. Misalnya, dengan meminta evaluasi dari para panel pakar (expert panel review). Para pakar ini akan memberikan konfirmasi apakah item (pool of

(3)

times) yang digunakan sesuai untuk konstruk yang ada. bagian II langkah 4 menjelaskan lebih perinci lagi bagaimana pelaksanaan expert panel review ini.

3. Convergent dan Discriminant Validity

Face validity dan content validity dapat kita lakukan sebagai langkah awal untuk menguji pengembangan skala kita. Tentu saja kedua pengujian itu bersifat subjektif, dan karena itulah memiliki keterbatasan. Selayaknyalah penilaian kita tentang validitas skala pengukuran tidak hanya didasarkan pada penilaian subjektif, tetapi juga didukung oleh data empirik yang relevan. Alasannya para ahli mengusulkan pengujian dengan data ini ialah karena kita tahu bahwa suatu konsep bisa saja memiliki operasional yang beragam. Seperti yang tadi telah disinggung di bagian awal, hubungan berikut juga bisa menjadi basis bagi kita melihat validitas sebuah skala. Penjelasan sederhananya sebagai berikut:

Bila suatu variabel pengukuran “x” benar-benar mengukur variabel konsep X, maka tentulah ia akan berkorelasi dengan variabel pengukuran lain yang juga dirancang untuk hal yang serupa dengan X, dan kemudian sudah tentu tidak berkorelasi dengan variabel pengukuran lain yang dirancang untuk mengukur variabel konsep lain yang tidak terkait.

Logika diatas membuat para ahli merumuskan dua kategori validitas lagi, yakni yang disebut dengan convergent validity dan discrimant validity. Convergent validity adalah sejauh mana suatu variabel pengukuran ditemukan terkait dengan pengukuran lain yang dirancang untuk mengukur konsep yang serupa. Misalnya, kontsruk “resiliensi” (kapasitas untuk bangkit dari kesulitan atau masalah), kemungkinan bisa kita uji convergent validity nya dengan konstruk “active coping”

(keaktifan orang menyelesaikan masalah). Di sisi lain, “resiliensi” mungkin berkorelasi negatif dengan apa “pesimisme”. Orang yang mampu bangkit dari satu masalah kemungkinan besar ialah juga orang yang optimis. Seandainya hasil dari pengujian yang kita lakukan validitas konvergennya menunjukkan “sedang hingga tinggi” , dan sedangkan untuk uji validitas divergent-nya “nol hingga rendah”, maka item yang ada perlu kita evaluasi berkaitan dengan apa yang sesungguhnya diukur oleh skala tersebut.

Untuk menjamin mutu skala pengukuran yang sedang kita kembangkan, para ahli pengembangan skala juga menyarankan kita memeriksa criterion-related validity di mana pengukuran yang ada di gunakan untuk memprediksi apa yang seharusnya diprediksi. Bagian berikut memerinci kategori validitas ini.

4. Criterion-Related Validity

Sebuah perilaku bisa memprediksi perilaku yang lain. kembali ke contoh resiliensi sebelumnya, maka dapat dikatakan resiliensi bisa jadi “predictor” untuk karakter optimis seseorang. Contoh lain, misalnya kemampuan bernegoisasi seseorang tenaga penjual bisa kita gunakan untuk memprediksi

(4)

karakter kegigihannya dalam menjual. Kita bisa menguji validitasnya dengan mengambil data untuk kedua ukuran ini dan kemudia kita lihat korelasinya.

Criterionrelated validity adalah validitas yang mensyaratkan adanya kaitan empirik antara item atau skala dengan beberapa kriteria tertentu. Ada atau tidaknya landasan teori yang menjelaskan hubungan tadi tidak diperhitungkan dalam criterion-related validity. Ketika seseorang dapat menunjukkan secara empiris bahwa tambahan insentif nonmateri bisa meningkatkan kinerja penjualan karyawan, berkaitan dengan kriteria pencapaian kinerja tertentu. Jadi, validitas ini lebih mengutamakan aspek praktisnya ketimbang aspek ilmiah. Kemampuan memprediksi dari item lebih diutamakan ketimbang pemahaman dalam proses pengembangannya. Tidak heran , criterion-related validity juga kerap disebut dengan predictive validity.

Istilah lain dari criterion-related validity yaitu concurrent validity. Ada hal-hal yang sama bisa terjadi secara paralel dan terprediksi oleh kita. Yang jelas, kekuatan dari hubungan empiris antara dua buah kejadianlah yang diutamakan dalam validasi ini. Adapun tentang seberapa besar hubungan antara item pertanyaan dan kriteria yang digunakan untuk menyimpulkan tidak jadi masalah.

5. Construct Validity

Berbeda dengan criterion-related validity yang lebih mengutamakan aspek empiris, construct validity mementingkan hubungan teoretikal dari suatu variabel atas variabel lainnya. Jasi, terkait dengan bagaimana satu pengukuran berperilaku sehingga konstruk yang di ukurnya berperilaku terkait dengan pengembangan pengukuran konstruk lain. misalnya, kalau ada satu variabel yang bergubungan positif dengan konstruk A dan B, berhubungan negatif dengan C dan D, serta tidak berhubungan dengan X dan Y, maka skala yang megklaim mengukur konstruk itu harus juga menunjukkan hubungan yang sama dalam mengukur konstruk tadi. Artinya, pengukuran kita harus menghasilkan pula hubungan yang positif dengan A dan B, berhubungan negatif dengan C dan D, dan tidak berkorelasi dengan X dan Y.

B. BEDA CONSTRUCT DAN CRITERION-RELATED VALIDITY

Dengan sama-sama memperhatikan nilai korelasi, construct validity dan criterion-related validity agak sulit dibedakan. Selain melihat korelasi, kedua cara itu juga menggunakan dua variabel serupa, pada dasarnya kita bisa menguji construct validity dan criterion-related validity sekaligus.

Sesungguhnya letak perbedaannya tergantung keinginan peneliti, bukan pada nilai korelasi yang dipeorleh. Misalnya seorang polisi ingin menentukan pengukuran dari survei yang mana yang berkorelasi dengan kecelakaan di jalan raya. Tujuannya di sini berangkali hanya sekedar mengidentifikasi faktor-faktor risiko yang ada, tanpa memperhatikan apa-apa penyebab yang berkaitan dengan pengukuran untuk kecelekaan. Validitas dalam hal ini yaitu derajat sejauh mana sebuah skala bisa memprediksi kecelakaan di jalan raya.

(5)

Disisi lain, tujuannya bisa saja untuk mengusulkan model teoritikal bahwa kesehatan merupakan penyebab dari kecelakaan. Untuk tujuan ini isunya ialah bahaimana kita mengembangkan sebuha skala ukur yang baru untuk mengukur kesehatan untuk mengemudi. Hal ini bisa dilakukan dengan menilai, dengan mengevaluasi “perilaku” skala itu relatif terhadap bagaimana teori-teori tentang kesehatan seperti persoalan stres misalnya. Kalau teori yang ada menjelaskan bahwa kesehatan/stres dan kecelakaan seharusnya berkorelasi, maka hubungan empiris yang sama digunakan sebagai bukti dari predivtive validity, tapi juga sekaligus untuk tujuan melihat bukti terjadinya construct validity. Hal lain yang harus dicatat, tidak ada kesepakatan peneliti tentang berapa kuat korelasi yang harus ada untuk mengatakan ada hubungan kuat antara variabel yang digunakan.

Berikut ini beberapa artikel penelitian yang menjalankan beberapa contoh prosedur validitas yang digambarkan di atas, terutama terkait penggunaan analisis korelasi dengan konstruk lain di luar yang sedang diteliti.

Untuk convergent validity

1. The development and validation of the psychological vulnerability scale (V.G. Sinclair & K.A.

Wallston, 1999).

Di artikel ini penelitiannya hendak mengembangkan skala yang mereka sebut sebagai psychological vulnerability (PVS), PVS adalah kosntruk yang menjelaskan bagaimana pola pikir seseorang dalam mencerminkan ketergatungan dirinya mengandalkan sumber kekuatan dari luar untuk menilai dirinya, bukan kekuatan atau karakter internal dirinya, sehingga ini menggiring orang lebih mudah terkena stres.

Dalam penelitian ini, penelitiannya menggunakan skala perceived helplessness sebagai sebuah skala yang mengukur hal serupa. Dengan korelasi kedua skala ini mereka menunjukkan bahwa skala baru yang dikembangkan PsyVur memiliki convergent validity, karena berkorelasi positif dengan perceived helplessness. Sebaliknya, untuk memerika konstruk yang memiliki karakter yang berbeda, penelitiannya menggunakan skala perceived health competence (M. S. Smith, Wallston, & Smith, 1995). Karena ini konstruk yang bertolak belakan dengan PSV, maka diharapkan analisis korelasi akan menghasilkan korelasi yang negatif.

2. A new rating scale for adult resilience: what are the central protective resources behind healthy adjustmen? (Friborg, Hjemdal, Rosenvinge, & Martinussen, 2003)

Para peneliti ini ingin mengembangkan sebuah skala baru yang mereka sebut resilience scale for adult (RSA). Resiliensi, seperti yang pernah kita bahas sebelumnya merupakan kapasitas seseorang untuk bangkit dari kesulitan-kesulitan dalam pekerjaan atau hidup. Mereka sandingkan skala pengukuran RSA ini dengan skala yang disebut sense of coherence scale (SOC). SOC adalah untuk mengukur sejauh mana seseorang itu bisa bertahan bila sedang menghadapi situasi yang dinamis,

(6)

apakah mereka akan percaya diri bahwa situasinya bisa mereka kontrol atau tidak. SOC dapat mengukur bagaimana orang optimis dan merasa memiliki kontrol.

Dengan demikian, ini adalah karakter yang serupa dengan resiliensi, dan penelitiannya berharap orang yang dievaluasi memiliki resiliensi yang tinggi secara logika juga memiliki SOC yang tinggi.

Jadi, korelasi yang dihasilkan akan positif secara berarti.

C. MULTITRAIT-MULTIMETHOD MATRIX

Multitrait-multimethod matrix (MMM) ini adalah prosedur yang mengukur lebih dari satu konstruk dengan cara lebih dari satu metode, sehingga kita bisa memiliki matriks saling silang antara metode dan skalanya.

Misalnya, kita ingin meneliti kepuasan kerja, komitmen kerja, dan ukuran baju dengan dua kali menggunakan dua prosedur pengukuran yang berbeda. Setiap konstruk diamati dengan metode yang berbeda. Sebutlah metode A: skala visual analog, yaitu urutan di mana responden bisa memilih mana yang kondisi mana yang paling menggambarkan dirinya. Kemudian, metode B: partisipan membuat

“rating” tentang sejauh mana kepuasan kerja dan komitmen yang diberikannya atau, kalau kita mau, kita bisa juga menggunakan dua konstruk yang berbeda.

Bila kita perhatikan contoh pertama (konstruk yang serupa), maka dengan menggunakan metode yang sama varians dari metode dan konstrumya juga bisa serupa, dan karena itu kita bisa berharao korelasinya tertinggi. Kita juga bisa melihat bahwa korelasi yang terkait dengan trait yang sama tetapi metodenya berbeda akan memberikan korelasi yang tertinggi berikutnya. Bila ini yang terjadi, itu menunjukkan bahwa kovarian dari konstruk kita lebih tinggi daripada kovarian metode yang digunakan.

Artinya, alat ukur kita lebih terpengaruh oleh variabel pengukurannya daripada bagaimana (method) ia diukur. Sebaliknya, kovarias dengan ukuran baju tidak perlu ada pada kedua metode yang digunakan.

Jadi, tidak boleh berbeda secara signifikan dengan nol. Untuk konstruk yang tidak sama (non-identical) tetapi secara teori merupakan realted construct seperti kepuasan dan atau depresi, dan kecemasan, maka seharusnya ada kovariasi konstruk. Pengujian ini bisa menjadi indikasi yang penting untuk pengujian construct validity kita bagi skala pengukuran komitmen kerja.

D. SOCIAL DESIRABILITY BIAS (SDB)2

Ketika partisipan mengisi kuesioner, ada kemungkinan jawabannya terpengaruh pada bagaimana ia ingin dilihat atau dianggap oleh masyarakat. Jadi, bukan gambaran sesungguhnya atas yang ia rasakan tentang dirinya. Jawaban seperti ini disebut social desirabilitybias (SDB).

SDB adalah kecenderungan orang untuk merespons pertanyaan dengan hal yang dianggap baik dalam masyarakat, terlepas apakah itu benar atau tidak, menyajikan sosok diri yang disukai, terlepas dari apa yang mereka rasakan (Tharenou, Donohue & Cooper, 2007). Tentu saja kecenderungan ini memberi

(7)

bias pada jawaban pastisipan dan juga bisa mengelabui hubungan yang ingin kita lihat pada dua atau lebih varaibel karena menghasilkan hubungan yang salah.

Salah satu cara melihat kemungkinana bias ini terjadi adalah dengan menggunakan pengukuran SDB, misalnya yang dibuat oleh Crown-marlowe (short version-nya oleh Strahan dan Gerbasi, 1972). Kita perhatikan setinggi apakah rata-rata skor partisipan untuk skala. Bisa juga gunakan korelasi dengan skala pengukur yang sedang kita uji. Bila ada item yang korelasinya sangat tinggi (katakanlah> 8), kita patut curiga dan mempertimbangkan apakah kita perlu menghapus item tersebut.

Erat kaitannya dengan SDB, orang juga cenderung bersifat acquiescence dalam merespons kuesioner, yakni ketika mereka membenarkan yang kira-kira dianggap benar oleh masyarakat.

E. ACQUIESCENCE RESPONSE SET

Acquiescence response set juga disebur dengan agreement response set terjadi ketika partisipan ditanya dengan pertanyaan yang bersifat psoitif dan punya kemungkinan dijawab secara positif juga.

Jadi, ini adalah kecenderungan pastisipan setuju dengan butir pertanyaan, terlepas dari apa pun konten pertanyaan itu. Salah satu cara mengurangi respons seperti ini yaitu dengan menyertakan butir pertanyaan negatif (atau yang positif, bila kita ingin menghindari kecenderungan tidak setuju).

Meskipun bisa memperkecil respons acquiescence, menyertakan butir pertanyaan negatif juga berisiko.

Contohnya, ketika orang menanyakan organizational commitment survey, ada pertanyaan, “Tidak banyak manfaatnya bila terus bekerja di organisasi ini”, diubah dengan “sering sulit bagi saya untuk setuju dengan kebijakan organisasi ini atas hal-hal yang penting terkait karyawannya”.

Tetapi beberapa studi mengingatkan kita untuk mewaspadai respons untuk pertanyaan negatif ini, karena kerap kali skor reliability nya rendah.

Brace (2004) menggolongkan tipe SDB sebagaimana tiga kategori berikut : 1. Ego Defence dan Self-Deception

Orang cenderung untuk menjaga rasa self esteem mereka. Berbeda dengan impression management, orang menjawab dalam rangka meyakinkan diri mereka bahwa mereka seperti yang diharapkan dalam masyarakat. Orang merasa sesuatu akan dilakukannya di masa datang meskipun kenyataannya itu berbeda dengan perilakunya sekarang. Kalau ini dilakukan dengan kesadaran kita menyeburnya ”ego defence”, tetapi kalau ini tidak sadar kita sebut sebagai “self deception”.

2. Intrumentation

Tipe SDB ini sepenuhnya disadari oleh partisipan. Responen menjawab pertanyaan dengan pandangannya untuk menghasilkan hal yang disukai di masyarakat. Orang akan menyebut mereka menjalankan sikap atau perilaku tertentu, meskipun mereka tahu tidak akan begitu. Mereka melakukannya karena mereka yakin menunjukkan hal itu merupakan sesuatu yang diinginkan dalam masyarakat.

(8)

3. Mengatasi SDB

Sulit bagi peneliti menghindari SDB 100% atas respons partisipan pada pengukuran sikap atau perilaku yang memungkinkan SDB. Kita hanya bisa meminimalkan efek negatifnya. Cara yang paling sederhana tentu saja meminta partisipan menjawab pertanyaan dengan jujur dan apa adanya. Tetapi keefektifan cara ini lazimnya cukup rendah. Pejelasan bahwa survei yang dilakukan bersifat “rahasia”

ialah cara berikutnya. Orang cenderung enggan bekerja sama dengan baik ketika dia tahu pertanyaannya berisiko bila diketahui banyak orang.

Tidak menggunakan Interviewer. Untuk pertanyaan pertanyaan yang memiliki kecenderungan SDB, sebaiknya tidak bertatapan langsung. Kuesioner yang diisi tanpa kehadiran periset (dilakukan sendiri) cenderung lebuh baik hasilnya.

Item yang random. Selain hal-hal di atas, membuat respons menjadi random ialah cara yang berikutnya. Kita bisa mengacak item pertanyaan sehingga orang tidak merasa dia teridentifikasi untuk menjawab saru pertanyaan tertentu.

“Saving face”. Kadang-kadang ada pertanyaan yag membuat partisipan malu. Misalnya ketimbang menanyakan “apakah anda membaca edisi terakhir majalah Tempo”, kita bisa menggantinya “apakah Anda punya waktu membaca edisi terakhir Tempo”. Teknik ini bisa mengurangi kecenderungan SDB karena membuat partisipan lebih percaya diri.

F. PENINGKATAN MUTU KUESIONER

Selain dnegan memastikan hal-hal di atas, memperbaiki kuesioner dengan tujuan meminimalkan SDB juga dapt dilakukan. Cara-cara sederhana berikut dapat dipertimbangkan:

• Meyakinkan lagi tentang perilaku yang lumrah

Meyakinkan partisipan tentang apa pun jawaban mereka bukan sesuatu yang “tidak biasa”, atau dengan kata lain hal yang lumrah bisa membuat partisipan cenderung menjawab apa adanya.

Misalnya, “Adalah hal yang lazin bila ada karyawan pulang sedikit lebih awal dari jam kantor, tepat pada saat jam kantor, atau sedikir lewat jam kantor. Pada kategori yang manda diri Anda berada?”

• Memperbanyak respons

Ketika kita memberikan pilihan respons yang banyak, suatu perilaku yang pada dasarnya ekstrem, bisa terkesan “biasa”. Ini memudahkan partisipan untuk merasa “lumrah” dalam memberikan responsnya, meskipun mereka ada di kategori yag cukup ekstrem. Misalnya, ketika menayanakan berapa sering seseorang telat saat masuk kantor, kita bisa menempatkan frekuensi yang luar biasa sehingga orang yang sudah cukup banyak telatnya tetap bisa merasa “sedang”. Atau masih terkait

(9)

dengan ini, kita bisa memberikan respons yang sifatnya “luas”, misalnya dengan memberikan pernyataan respons: “>5 kali dalam sebulan” sehingga orang tidak harus menjawab secara spesifik.

RELIABILITAS DALAM PENGUKURAN PENDAHULUAN

Bila kita memiliki timbangan berat badan, maka kita mau hasil yang pengukurannya konsisten, siapa pun orang yang menimbang berat badan pada timbangan tersebut. Lazimnya, timbangan yang kurang baik, ukuran awalnya sering bergeser (biasanya karena terbentur, dan lain-lain) sehingga titik mulainya kadang-kadang di atas nol. Tetapi, dilain waktu, karena memang berubah-ubah, titik awalnya bisa di bawah nol. Timbangan yang tidak konsisten seperti ini tentu saja sulit untuk diandalkan. Dalam pengembangan skala pengukuran untuk penelitian, kita juga mau seperti itu; item dari satu skala pengukuran yang kita rancang mengukur secara konsisten apa yang sepatut diukur.

Itulah yang menjadi perhatian kita ketika membicarakan reliabilitas (reliability), bagaimana memastikan agar skala pengukuran yang kita rancang memiliki kekonsistenan secara internal (internal consistency).

A. KONSISTENSI INTERNAL

Konsistentsi internal dari sebuah skala berkaitan dengan keseragaman (homogenoitas) yang ada pada item sebuah skala. Kalau skala yang kita rancang memiliki lima item pertanyaan, maka kita berharap pengukuran dari item itu tertuju pada satu fenomena tunggal. Konsep tentang pengukuran menunjukkan bahwa hubungan antara item dari sebuah skala berkaitan erat dengan hubungan atas item ke variabel latennya. Kalau item itu berhubungan kuat dengan variabel laten, maka di antara sesama item logikanya juga berhubungan relatif kuat. Kita bisa melihat hubungan antar-item ini dengan mengevaluasi kinerja skala pengukuran tersebut. Kita dapat menyebut sebuah skala memiliki tingkat konsistensi internal yang tinggi (internal consistency) ketika sesama item-nya saling berkorelasi cukup tinggi. Para ahli melihat dua aspek penting dari korelasi anatar item ini. Pertama, soal apakah item itu saling memberikan efek penyebab (causally effect) antara satu dan lainnya, atau apakah sesama item itu memiliki sumber sebab yang sama (a common cause).

Biasanya penjelasan yang pertama sangat jarang terjadi. Bila korelasi antar item terjadi, berarti itu menunjukkan item itu memang mengukur atau manifestasi dari hal yang sama. Artinya, kita bisa menyimpulkan bahwa korelasi yang tinggi di antara item menunjukkan hubungan kuat antar-item dan dengan variabel laten. Karena itu, jika kita sedang mengukur skala yang uni-dimensional atau berdimensi tunggal dari skala multidimensional ia harus terdiri dari rangkaian item yang berkorelasi dengan baik satu sama lainnya.

B. KOEFISIEN ALPHA

(10)

Dalam menilai sejauh mana konsistensi internal dari sebuah skala, peneliti kerap menggunakan koefisien alpha (ditulis dengan menggunakan simbol α), atau yang sering disebut Croanbach’s Alpha merujuk ke penemunya Lee J. Croanbach (lihat box). Croanbach ialah seorang psikolog pendidikan berkebangsaan Amerika yang tertarik dengan pengukuran.

Para ahli pengukuran sepakat mengatakan koefisien alpha .70 diperlukan untuk sebuah skala yang memang sudah mapan dan dianggap stabil. Adapun untuk sebuah skala yang masih dalam tahap pengembangan, koefisien .60 dianggap cukup memadai. Lebih jauh Traub (1994) memberikan penjelasan ringkas tentang koefisien alpha dan makna pengukurannya:

• Koefisien alpha adalah skor tanpa dimensi, jadi tidak memiliki unit.

• Nilai maksimum koefisien alpha adalah 1, ketika semua varians dari pengamatan kita sama dengan skor yang dimiliki oleh “true score”.

• Nilai minimum dari koefisien alpha adalah “0”, yakni ketika tidak ada varians “true-score” dan seluruh varians dari pengamatan kita kesemuanya adalah “error”/

• Dalam praktiknya, setiap pengujian yang akan menggunakan skor reliabilitasnya di mana skornya antara 0 dan 1; semakin besar reliabilitas skor, semakin dekat ke 1 koefisien reliabilitasnya.

Pada bagian II buku nanti, saat kita melakukan bersama-sama proses pengembangan skala, kita akan perinci lagi bagaimana perhitungan dan penetapan skor koefisien alpha ini. Dalam memperhatikan konsistensi, kita harus kembali pada prinsip bahwa variabilitas dari serangkaian skor item ditentukan oleh dua hal. Pertama, variasi aktual atas individual dalam fenomena yang sedang diukur oleh skala. Kedua, oleh kesalahan (error). Fenomena, dapat kita katakan sebagai sumber dari segala variasi yang saling dibagi pada item, sedangakn error adalah variasi yang tersisa atau yang tidak turut dibagi. Beberapa kalangan ada yang menyebut kedua aspek ini sebagai signal dan noise. Keduanya bila ditotalkan akan menjadi total varians yang dihasilkan skala (catatan: lihat lagi penjelasan tentang variabel laten di bab sebelumnya). Alpha adalah total variasi untuk yang

“signal”. Dalam rumusan matematika, kita bisa menyebutkan sebagai:

1 – error variance = Alpha, atau dengan kata lain, error variance = 1 – Alpha.

Bila kita ingin memahami lebih jauh rumusan di atas, maka kita perlu memahami konsep matriks kovarian (covariance matrix).

C. MATRIKS KOVARIAN (COVARIANCE MATRIX)

Agar kita memahami dengan baik bagaimana mekanisme konsistensi internal dalam satu skala pengukuran, kita dapat memulainya dengan menggunakan matriks kovarian. Matriks kovarian ini serupa dengan matriks korelasi. Bedanya, data yang digunakan bukan yang standardized (yang sudah

(11)

dikuadratkan), tetapi yang unstandardized. Kalau kita memiliki tiga item pertanyaan dari sebuah skala, maka dalam bentuk tabel wujud matriks kovariannya seperti gambar berikut:

C= [

𝜎12 𝜎1,22 𝜎1,32 𝜎1,22 𝜎22 𝜎2,32 𝜎1,32 𝜎12 𝜎32

]

Matriks di atas terdiri dari dua bagian utama, yang berjejer sebagai diagonal pada matriks di atas yaitu varians; yakni kovarians dari item terhadap dirinya sendiri di mana nilainya 1. Adapun yang lain yaitu kovarians, yakni hubungan antara pasangan dari item yang unstandardized. Untuk pembahasan lebih detail, pembaca bisa merujuk pada karya Field (2009).

Anggap saja tiga item pertanyaan yang menjadi contoh kita X1, X2, X3. Maka tabel matriks kovariannya sebagai berikut:

Tabel 3.1 Varians dan kovarians untuk tiga variabel

X1 X2 X3

X1 Var1 Cov2,1 Cov2,3

X2 Cov1,2 Var2 Cov1,2

X3 Cov1,2 Cov2,3 Var3

D. MATRIKS KOVARIAN UNTUK SKALA MULTI-ITEM

Skala pengukuran (kuesioner) yang menjadi fokus pada buku ini ialah sukala yang bersifat multi- item, di mana skalanya terdiri dari beberapa item yang hasil penjumlahannya akan membentuk sebuah skala. Seperti yang terlihat pada tabel (di atas), kita memiliki tiga variabel yakni X1, X2, dan X3. Kita asumsikan bahwa skor untuk tiga item dan itemnya ini X1, X2, dan X3 ketika dijumlahkan akan menjadi skala yang disebut Y. Matriks ini akan menjelaskan kepada kita hubungan dari masing- masing item dengan skala Y secara keseluruhan. Bagian berikut akan mendetailkan hal tersebut.

Kovarians matriks memiliki sejumlah properti yang membantu kita memahami hubungan tersebut. Kalau kita menjumlahkan semua elemen di matriksnya (jadi kita menjumlahkan variansnya, yang ada di diagonal, dan sekaligus kovariansnya – semua yang ada di luar diagonal), kita akan memperoleh satu nilai yang sama dengan varians dari skala secara keseluruhan, terutama kalau kita asumsikan bahwa item itu bobotnya sama. Artinya, semua simbol yang ada di kovarians itu akan menjadi varians dari skala Y. Varians dari skala Y, terdiri dari sejumlah item yang sama dengan jumlah dari seluruh nilai yang ada di matriks kovarians. Skala Y, yang terdiri dari tiga item yang

(12)

bobotnya sama, yaitu X1, X2, dan X3, memiliki hubungan dengan kovarians matriks dari item seperti berikut:

𝜎2 = C

C= [

𝜎12 𝜎1,22 𝜎1,32 𝜎1,22 𝜎22 𝜎2,32 𝜎1,32 𝜎12 𝜎32

]

E. ALPHA DAN MATRIKS KOVARIAN

Alpha merupakan proporsi “common varians” dari total varians sebuah skala, yang diasumsikan sebagai true score dari variabel laten. Untuk menghitungnya, kita memerlukan suatu nilai untuk total varians skala dan suatu nilai untuk proporsi yang memerlukan “common” varians itu. Untuk upaya ini, kita memerlukan matriks kovarian di mana kita bisa menggunakan kembali diagram yang sudah kita gunakan di Bab 3 (variabel laten kreativitas) sebelumnya.

Gambar di atas menunjukkan bahwa semua variasi yang disebabkan variabel laten ialah yang dibagi (common/shared) oleh semua item (beberapa buku menggunakan istilah “joint” atau

“communal”). Y merupakan variabel laten kita, yang ketika skala pengukur ini kita ajukan ke responden, responsnya bisa bervariasi.

Untuk lebih memahaminya, coba kita ganti contohnya dari soal kreativitas ke soal kepemimpinan.anggaplah, Y pada gambar di atas melambangkan sikap seseorang atas gaya kepemimpinan tertentu, maka nilainya bermacam-macam untuk masing-masing orang yang menjadi partisipan studi. Bila Y bernilai tinggi, maka X-nya, yakni itemnya juga akan bernilai tinggi.

Sebaliknya, kalau Y bernilai rendah, maka X-nya cenderung akan bernilai rendah juga. Dengan kata lain, item di sini cenderung untuk ikut bervariasi, atau saling berkorelasi. Variabel laten memengaruhi item yang kemudian ada keterkaitan jua sesama item. Sekali lagi, pemahaman kita atas teori atau konsep tentang variabel konstruk yang kita amati penting sekali dalam memahami konsep reliabilitas ini.

Y

X5 X4 X3 X2 X1

e5 e4 e3 3

e2 e1

(13)

F. RELIABILITY DAN “STASTICAL POWER”

Skala yang memiliki reliabilitas yang baik, relatif dibandingkan dengan yang kurang baik memiliki “stastical power” yang lebih baik. Stastical power adalah sejauh mana probabilitas kita akan menolak atau menerima satu hipotesis dalam menggunakan statistik sebagai alat analisis.

Karena itu, dengan kata lain, kita bisa mendapatkan stastical power terntentu dengan jumlah sampel yang tidak terlalu banyak, relatif kita bandingkan dengan skala yang kurang baik.

Ini menguntungkan kita kalau misalnya kita berminat mengukur kemampuan mendeteksi suatu perbedaan dari anggapan/Respons antara dua kelompok partisipan yang berbeda. Peneitian seperti ini membutuhkan ukuran sampel tertentu. Kemungkinan mendeteksi yang terkait stastical power ini dapat kita tingkatkan dengan menambah jumlah sampel. Di sisi lain, dengan cara yang sama hasil yang sama bisa kita upayakan dengan meningkatkan reliabilitas dari pengukuran yang kita gunakan.

Skala yang reliabilitasnya bagus bisa membuat relatif berkurangnya “error” atau satu analisis statistik. Jadi, selain dengan mengupayakan jumlah sampel, meningkatkan reliabilitasnya skala bisa jadi pilihan.

G. RELIABILITY DAN GENERALIABILITY THEORY

Di beberapa subbab sebelumnya kita mengetahui bahwa varians yang ada di sebuah item pengykuran terdiri dari varians yang berasal dari variabel laten (true score) dan yang berasal dari

“error”. Subbab ini memerinci penjelasan pemilahan kedua jenis sumber varian ini.

Misalnya kita sedang mengukur sejauh mana program pelatihan efektif meningkatkan produktivitas karyawan. Sejumlah besar karyawan menjadi partisipan dalam kasus in, dan sebagai pembandingnya para dosen di suatu perguruan tinggi. Untuk tambahan pembanding peneliti juga mengukur produktivitas para karyawan dan dosen yang tidak berpartisipasi dalam program pelatihan ini. Penelitian atau pengamatan tentang produktivitas ini kira-kira akan menghasilkan tuga sumber variasi:

1. Partisipan versus nonpartisipan.

2. Karyawan versus dosen.

3. Interaksi dari situasi No 1 dan 2.

Untuk melihat variasi dari mana yang paling besar daam keseluruhan variansi, para peneliti umumnya akan mengguanakan analysis of variance (ANOVA) dari skor variabel “produktivitas”

dengan memperlakukan ketiga variasi di atas sebagai suatu dimensi. Dari analisis ini kita bisa mengetahui sebesar apa proporsi kontribusi variasi setiap sumber pada total variasi variabel produktivitas.

Variasi di atas juga bisa terjadi dari cara dilakukannya penelitian. Katakanlah misalnya, cara yang pertama yaitu dengan kuesioner yang diisi langsung di atas kertas, sedangkan yang kedua yang

(14)

diisi dengan online. Bila nanti setelah dilakukan ANOVA (analysy=is of variance) untuk melihat apakah ada perbedaan yang signifikan secara statistik, ternyata memang ada variansi dengan kedua cara ini, maka peneliti sewajarnya menyampaikan ketika menginterupsikan hasil penelitian dalam laporan penelitian.

Generalizability theory berhubungan dengan pengamatan sejauh mana kita dapat mengasumsikan adanya kesamaan dalam dua atau lebih cara proses penelitian kita. Pada contoh di atas, cara ini terkait dengan bagaimana kuesioner diisi (kertas dan online). Setiap cara pengisian ini kita lihat sebagai potensi untuk memberikan variasi pada hasil respons yang kita peroleh.

Referensi

Dokumen terkait

Keterkaitan konstruk kualitas jasa dan tujuh dimensi ini dapat dipahami melalui deskripsi berikut, yaitu ketika konsumen diminta untuk menjelaskan mengapa jasa e-banking

– Segera setelah plasenta lahir, melakukan masase pada fundus uteri dengan menggosok fundus secara sirkuler menggunakan bagian palmar 4 jari tangan kiri hingga kontraksi uterus

Analisis regresi linear sederhana digunakan untuk melihat pengaruh antara variabel bebas yaitu Kompetensi (X) terhadap variabel terikat (Y) yaitu Kinerja Karyawan yang dilakukan

Karyawan ini mampu menyelesaikan tugas dengan hasil yang tepat sesuai besar kecilnya tugas.. Karyawan ini mampu menyelesaikan tugas yang tidak ditemukan

Menyadari akan keunggulan metode guided discovery dan melihat kenyataan bahwa metode guided discovery belum pernah diterapkan di SD Negeri Lempuyangan 1, maka peneliti

penelitian guna mengamati perilaku ibu khususnya dalam perawatan masa nifas Hal ini dilakukan untuk mengetahui hubungan keikutsertaan kelas ibu hamil dengan perilaku

kerjasama yang dilakukan oleh dua orang atau lebih. )rganisasi )rganisasi adalah adalah suatu suatu sistem sistem perserikatan perserikatan formal, formal, berstruktur

Sertifikat Lembaga Pendidikan dan pelatihan ini dikeluarkan oleh Direktur Jenderal Perhubungan Udara menurut peraturan penerbangan Indonesia dibawah otoritas Undang-Undang