Instrumen Penelitian,
Validitas dan Reliabilitas
An
instrument
is a
mechanism for
measuring
phenomena, which is used
to
gather
and
record
information
for
assessment, decision
making, and ultimately
understanding.
An
instrument
is a
mechanism for
measuring
phenomena, which is used
to
gather
and
record
information
for
assessment, decision
making, and ultimately
Teori
Konsep
Definisi Operasional
Komponen Instrumen
Judul
Pendahuluan: Mengapa, Bagaimana, Jenis informasi apa yang dibutuhkan, manfaat, informed consent
Petunjuk pengisian Petunjuk pengisian Pertanyaan
Memilih instrumen
Tujuan penelitian
Rancangan penelitian
Objek yang diteliti
Methodologi pengumpulan data
Resources/Sumber daya
Tergantung
:
Tujuan penelitian
Rancangan penelitian
Objek yang diteliti
Faktor-faktor yg dipertimbangkan:
 Karakteristik populasi
 Literacy, physical/mental abilities, motivasi
 Informasi ttg populasi yg akan diteliti
 No telp, alamat
 Akses ke responden
 Lokasi, waktu, infrastructure yang ada (telephone, internet)
 Tujuan survey
 Kompleksitas pertanyaan, sensitifitas topik,
 Bentuk kuesioner yang akan diberikan
 Open-ended, close-ended
 Perkiraan response rate  Karakteristik populasi
 Literacy, physical/mental abilities, motivasi
 Informasi ttg populasi yg akan diteliti
 No telp, alamat
 Akses ke responden
 Lokasi, waktu, infrastructure yang ada (telephone, internet)
 Tujuan survey
 Kompleksitas pertanyaan, sensitifitas topik,
 Bentuk kuesioner yang akan diberikan
 Open-ended, close-ended
Metode pengumpulan data
 Self-administered
 Individual, Surat  Group
 Pooling
 Email/internet
 Observation
 Penilaian siswa untuk dosen  Checklist
 Kombinasi format dan pendekatan
 Perilaku + Emosi
 Checklist+ fill the blank+rating scales
 Self-administered
 Individual, Surat  Group
 Pooling
 Email/internet
 Observation
 Penilaian siswa untuk dosen  Checklist
 Kombinasi format dan pendekatan
 Perilaku + Emosi
Questionnaire
 A self-contained and a self-administered instrument
for asking questions.
 Lack the personal touch
 Extremely efficient
 Most popular
 Good questionnaire  stands on its own
 A self-contained and a self-administered instrument
for asking questions.
 Lack the personal touch
 Extremely efficient
 Most popular
Risks
Low response rates
Bias
Responden bias, half-selection
Respondent honesty
over-report good things, and under-report bad things
Wording
Question Rules and bad examples
Clear in meaning and free of ambiguity
Apakah anda olahraga secara rutin? Berapa nilai total kekayaan anda? Apakah anda olahraga secara rutin?
Berapa nilai total kekayaan anda?
Use common everyday language, avoid jargons, abbreviations, or acronyms
MDGs, Renstra, Angka kematian,
Use neutral language, avoid emotional, leading language What do you find offensive about flag burning?
Simple and easy
How do you rate police response time to emergency and non-emergency calls?
How many cigarettes you smokes in a year? How do you rate police response time to emergency and non-emergency calls?
How many cigarettes you smokes in a year?
Asks yourself
Does the questions answers my research question? Is related questionnaire existed?
Menulis pertanyaan
 Full script, ditulis lengkap
 Bermakna sama untuk semua responden
 Respondent bisa memahami jawabannya
 Disusun dengan baik
 Menghindari kata-kata sulit
 Menghindari kalimat negative
 Menanyakan dua atau lebih pertanyaan pada saat yang sama  Full script, ditulis lengkap
 Bermakna sama untuk semua responden
 Respondent bisa memahami jawabannya
 Disusun dengan baik
 Menghindari kata-kata sulit
 Menghindari kalimat negative
 Menghindari kalimat panjang dan kompleks  Menghindari kalimat yang mengandung asumsi  Menghindari pertanyaan hipothetical
 Hindari pertanyaan yang responden tidak tahu
jawabannya
 Hindari pertanyaan tentang causality (sebab-akibat)  Jika menyebutkan harus jelas dan eksplisit
 Jika diperlukan bisa menjelaskan istilah yang digunakan,
tetapi tidak di pertanyaan
 Dll (handout mp)
 Menghindari kalimat panjang dan kompleks  Menghindari kalimat yang mengandung asumsi  Menghindari pertanyaan hipothetical
 Hindari pertanyaan yang responden tidak tahu
jawabannya
 Hindari pertanyaan tentang causality (sebab-akibat)  Jika menyebutkan harus jelas dan eksplisit
 Jika diperlukan bisa menjelaskan istilah yang digunakan,
tetapi tidak di pertanyaan
Contoh standar questionnaires
 Generic instruments
 COOP/WONCA charts: measure six core aspects of functional status: physical
fitness, feelings, daily activities, social activities, change in health and overall health.
 Sickness Impact Profile (SIP)/Functional Limitations Profile (FLP)
 RAND SF 36
 Duke Health Profile (DUKE)  EuroQol
 MOS 20
 Nottingham Health Profile
 RAND General Health Perception Questionnaire (GHPQ)  Generic instruments
 COOP/WONCA charts: measure six core aspects of functional status: physical
fitness, feelings, daily activities, social activities, change in health and overall health.
 Sickness Impact Profile (SIP)/Functional Limitations Profile (FLP)
 RAND SF 36
 Duke Health Profile (DUKE)  EuroQol
 MOS 20
 Nottingham Health Profile
 Dimension specific instruments
 Barthel Index
 Index of Independence in Activities of Daily Living  Frenchay Activities Index
 General Health Questionnaire (GHQ)  RAND Mental Health Inventory (MHI)  McGill Pain Questionnaire (MPQ)
 Dimension specific instruments
 Barthel Index
 Index of Independence in Activities of Daily Living  Frenchay Activities Index
 Disease/condition specific instruments
 State-Trait Anxiety Inventory (STAI)
 Center for Epidemiologic Studies Depression Scale (CES-D)  Arthritis Impact Measurement Scale (AIMS)
 Living with Asthma (AQ)
 Chronic Respiratory Disease Questionnaire (CRDQ)  Asthma Quality of Life Questionnaire (AQLQ)
 Diabetes Health Profile IDDM (DHP 1) and NIDDM (DHP2)  Diabetes Quality-of-Life measure (DQOL)
 EORTC Quality of Life Questionnaire
 Disease/condition specific instruments
 State-Trait Anxiety Inventory (STAI)
 Center for Epidemiologic Studies Depression Scale (CES-D)  Arthritis Impact Measurement Scale (AIMS)
 Living with Asthma (AQ)
 Chronic Respiratory Disease Questionnaire (CRDQ)  Asthma Quality of Life Questionnaire (AQLQ)
 Diabetes Health Profile IDDM (DHP 1) and NIDDM (DHP2)  Diabetes Quality-of-Life measure (DQOL)
Membuat isi kuesioner
 Melakukan literature review
 Gunakan sarana/kuesioner yang sudah ada  Brainstorming
 Nominal Group Technique  Grup 5-6 orang
 Fasilitator menjelaskan ide/masalah/tujuan
 Setiap peserta memberikan ide tertulis dan dishare
 Anggota grup lainnya tidak mengkritik, tapi bisa minta klarifikasi  Mengulang proses brainstorming sampai seluruh ide
terkumpulkan
 Setiap peserta mereview alternatif yang muncul  Membuat rangking prioritas
 Melakukan literature review
 Gunakan sarana/kuesioner yang sudah ada  Brainstorming
 Nominal Group Technique  Grup 5-6 orang
 Fasilitator menjelaskan ide/masalah/tujuan
 Setiap peserta memberikan ide tertulis dan dishare
 Anggota grup lainnya tidak mengkritik, tapi bisa minta klarifikasi  Mengulang proses brainstorming sampai seluruh ide
terkumpulkan
Membuat isi kuesioner
 Snowballing / Pyramiding
 2  2+2  4+4  dst
 Delphi technique
 Mengumpulkan input content dan methodologi dari
expert melalui email/surat.
 Draft dibuat oleh peneliti dan dikirimkan kepada
ahli.
 Ahli memberikan komentar secara independen
 Snowballing / Pyramiding
 2  2+2  4+4  dst
 Delphi technique
 Mengumpulkan input content dan methodologi dari
expert melalui email/surat.
 Draft dibuat oleh peneliti dan dikirimkan kepada
ahli.
Membuat isi kuesioner
 Questions Pool and Q-sort
 60-90 pertanyaan
 Print pertanyaan di kartu
 Acak kartu
 Buat kriteria rangking:
 most definitely include this item,  include this item,
 possibly include this item, and  definitely do not include this item.
 Questions Pool and Q-sort
 60-90 pertanyaan
 Print pertanyaan di kartu
 Acak kartu
 Buat kriteria rangking:
 most definitely include this item,  include this item,
Membuat isi kuesioner
 Concept Mapping Preparation.  Generation.
 brainstorming, nominal group technique, to generate
statements describing activities related to the project.
 Structuring.
 sort the statements: Q-sort or other ranking process.
 Representation.
 create visual maps that reflect the relationship
between the sorted items.
 Interpretation.  Utilization.
 Concept Mapping
 Preparation.  Generation.
 brainstorming, nominal group technique, to generate
statements describing activities related to the project.
 Structuring.
 sort the statements: Q-sort or other ranking process.
 Representation.
 create visual maps that reflect the relationship
between the sorted items.
Pengukuran
 Pengukuran adalah suatu proses yang sistematik
dan berulang untuk menghitung atau
mengklasifikasikan objek atau kejadian dengan menggunakan dimensi tertentu.
 Biasanya dicapai dengan penggunaan angka
(numerik values)
 Pengukuran adalah suatu proses yang sistematik
dan berulang untuk menghitung atau
mengklasifikasikan objek atau kejadian dengan menggunakan dimensi tertentu.
 Biasanya dicapai dengan penggunaan angka
Likert Scale
Rensis Likert 1903 1981 Agreement Sangat Setuju Setuju Ragu-ragu Tidak SetujuSangat tidak setuju
Frequency Sangat sering Sering Kadang-kadang Jarang Tidak pernah Agreement Sangat Setuju Setuju Ragu-ragu Tidak Setuju
Sangat tidak setuju
Frequency Sangat sering Sering Kadang-kadang Jarang Tidak pernah Importance Sangat penting Penting Agak penting
Tidak terlalu penting Tidak penting
Likelihood
Hampir selalu benar Biasanya benar
Kadang-kadang benar Biasanya tidak benar
Analisis Skala Likert
 Likert Scale: is the sum of responses on several Likertitems
 Ordinal or Interval  Deskriptif
 Median, Mode, Percentiles/quartiles, Display
Distribution (bar chart)
 Non-parametric test
 Chi-squared, Mann Whitney test, Wilcoxon signed-rank
test, Kruskal-Wallis test
 Modified binomial Likert Scale
 Chi-squared, Cochran-Q, McNemar test
 Likert Scale: is the sum of responses on several Likert
items
 Ordinal or Interval  Deskriptif
 Median, Mode, Percentiles/quartiles, Display
Distribution (bar chart)
 Non-parametric test
 Chi-squared, Mann Whitney test, Wilcoxon signed-rank
test, Kruskal-Wallis test
 Modified binomial Likert Scale
Pretesting
 Initial Pretesting
 Individual Interviews and Focus Groups  Review by Content Area Experts
 Continue to Obtain Feedback and Revise the Project If
Necessary
 Pretesting during development
 Read and Reread the Items and Read the Items Aloud  Review by Content Area Experts
 Review by Instrument Construction Experts  Review by Individuals with Expertise in Writing  Review by Potential Users
 Initial Pretesting
 Individual Interviews and Focus Groups  Review by Content Area Experts
 Continue to Obtain Feedback and Revise the Project If
Necessary
 Pretesting during development
 Read and Reread the Items and Read the Items Aloud  Review by Content Area Experts
Pilot testing
 Questions for experts
 Was each set of directions clear (that is, the general directions at the
beginning of the questionnaire and any subsequent directions provided in the body of the instrument)?
 Were there any spelling or grammatical problems? Were any items
difficult to read due to sentence length, choice of words, or special terminology?
 How did the reviewer interpret each item? What did each question
mean to them?
 Did the reviewer experience problems with the item format(s), or
does the reviewer have suggestions for alternative formats?
 Were the response alternatives appropriate to each item?
 Questions for experts
 Was each set of directions clear (that is, the general directions at the
beginning of the questionnaire and any subsequent directions provided in the body of the instrument)?
 Were there any spelling or grammatical problems? Were any items
difficult to read due to sentence length, choice of words, or special terminology?
 How did the reviewer interpret each item? What did each question
mean to them?
 Did the reviewer experience problems with the item format(s), or
does the reviewer have suggestions for alternative formats?
Pilot testing
 What problems did the reviewer encounter as a result of the organization of
the instrument, such as how items fl owed?
 On average, how long did it take to complete? What was the longest time
and what was the shortest time it took to complete the instrument?
 For Web-based instruments, did the respondent encounter any problems
accessing the instrument from a computer or navigating the instrument once it was accessed?
 Did any of the reviewers express concern about the length of the
instrument, or did they report problems with fatigue due to the time it took to complete?
 What was the reviewer s overall reaction to the questionnaire?
 Did they have any concerns about confi dentiality or how the questionnaire
would be used?
 Did they have any other concerns?
 What suggestions do they have for making the questionnaire or individual
items easier to understand and complete?
 What problems did the reviewer encounter as a result of the organization of
the instrument, such as how items fl owed?
 On average, how long did it take to complete? What was the longest time
and what was the shortest time it took to complete the instrument?
 For Web-based instruments, did the respondent encounter any problems
accessing the instrument from a computer or navigating the instrument once it was accessed?
 Did any of the reviewers express concern about the length of the
instrument, or did they report problems with fatigue due to the time it took to complete?
 What was the reviewer s overall reaction to the questionnaire?
 Did they have any concerns about confi dentiality or how the questionnaire
would be used?
 Did they have any other concerns?
 What suggestions do they have for making the questionnaire or individual
Pilot testing
 Obtain evidence of reliability.
 Establish evidence of face validity
 Obtain evidence of content validity
 Obtain evidence of criterion validity
 Obtain evidence of construct validity  Obtain evidence of reliability.
 Establish evidence of face validity
 Obtain evidence of content validity
 Obtain evidence of criterion validity
Reliability
Measurement
 Judul: mengukur kepuasan kerja
 Bagaimana tingkat kepuasan kerja Anda? Scala
 Faktor-faktor apa yang bisa mempengaruhi tingkat
kepuasan kerja Anda? Free listing, checklist, kombinasi
 Apakah gaya komunikasi pimpinan mempengaruhi
kepuasan kerja. Ya Tidak
 Apakah besaran insentif mempengaruhi  Judul: mengukur kepuasan kerja
 Bagaimana tingkat kepuasan kerja Anda? Scala
 Faktor-faktor apa yang bisa mempengaruhi tingkat
kepuasan kerja Anda? Free listing, checklist, kombinasi
 Apakah gaya komunikasi pimpinan mempengaruhi
kepuasan kerja. Ya Tidak
Contoh penelitian: mengukur tinggi badan
rata-rata anak SD di DIY
 Yang diukur harus tinggi badan, BUKAN berat badan  Valid
 Alat ukurnya akan memberikan hasil yang sama meskipun
seseorang diukur tinggi badannya berulang-ulang  Reliable
 Hasil dari pengukuran tinggi anak SD di DIY ini diharapkan
bisa menggambarkan tinggi rata-rata anak SD di Jawa 
Generalisir
 Yang diukur harus tinggi badan, BUKAN berat badan  Valid
 Alat ukurnya akan memberikan hasil yang sama meskipun
seseorang diukur tinggi badannya berulang-ulang  Reliable
 Hasil dari pengukuran tinggi anak SD di DIY ini diharapkan
bisa menggambarkan tinggi rata-rata anak SD di Jawa 
Validity
 Apakah kita mengukur apa yang ingin kita ukur?
 Konsep seringkali sulit diukur
 Misalnya:
 Konsep : Pengetahuan.  Latent & Manifest Variable
 Apakah kita mengukur apa yang ingin kita ukur?
 Konsep seringkali sulit diukur
 Misalnya:
TipeValidity
Face Validity Constructvalidity validity/internalContent validity
Face Validity Constructvalidity validity/internalContent validity
Criterion
Face Validity
 Face validity is the degree to which an instrument appears to
be an appropriate measure for obtaining the desired
information, particularly from the perspective of a potential respondent.
 Responden diminta untuk menilai apakah instrumen
penelitian (misal kuesioner) valid menurut mereka
 Apakah responden bisa menangkap maksud pertanyaan
sesuai yang dimaksud peneliti
 Orang biasa  Expert
 Contoh: kuesioner tentang gaya hidup sehat, pertanyaan:
seberapa sering Anda olahraga?  Face validity: Valid
 Face validity is the degree to which an instrument appears to
be an appropriate measure for obtaining the desired
information, particularly from the perspective of a potential respondent.
 Responden diminta untuk menilai apakah instrumen
penelitian (misal kuesioner) valid menurut mereka
 Apakah responden bisa menangkap maksud pertanyaan
sesuai yang dimaksud peneliti
 Orang biasa  Expert
 Contoh: kuesioner tentang gaya hidup sehat, pertanyaan:
Construct Validity
 Memastikan peneliti dgn responden memahami konstruk yang
sama
 Safety, intelligence, leadership, cleanness
 Internal structure
 Related to the theoretical of knowledge
 Operationalization
 Terdiri dari :
 Convergent validity : + contoh: depresi dan perasaan tidak berguna  Discriminant validity: - contoh: depresi dan perasaan bahagia
 Harus dilaporkan keduanya
 Memastikan peneliti dgn responden memahami konstruk yang
sama
 Safety, intelligence, leadership, cleanness
 Internal structure
 Related to the theoretical of knowledge
 Operationalization
 Terdiri dari :
 Convergent validity : + contoh: depresi dan perasaan tidak berguna  Discriminant validity: - contoh: depresi dan perasaan bahagia
Convergent Validity
to show that
measures that should be related are in
reality related to show that
measures that should be related are in
Discriminant Validity
to show that measures that should not be related are in reality not related to show that
Pengetahuan
Perilaku
Sikap
Content/internal validity
 the degree to which an instrument is representative of thetopic and process being investigated.
 Misalnya: Konsep: mengukur sikap murid terhadap guru
 Alat ukur sikap dg skala Likert
 Saya mendengarkan semua kata orang tua  Guru saya selalu berusaha membantu saya
 Saya selalu mengucapkan salam setiap bertemu guru
 Literatur review : meningkatkan kemampuan peneliti untuk
mencapai content validity
 the degree to which an instrument is representative of the
topic and process being investigated.
 Misalnya: Konsep: mengukur sikap murid terhadap guru
 Alat ukur sikap dg skala Likert
 Saya mendengarkan semua kata orang tua  Guru saya selalu berusaha membantu saya
 Saya selalu mengucapkan salam setiap bertemu guru
 Literatur review : meningkatkan kemampuan peneliti untuk
 Apakah konten valid atau tidak dipengaruhi oleh:
 pengetahuan peneliti terhadap definisi konsep,  teori tentang konsep yang ada, dan
 bagaimana konsep itu bekerja.  Sample selection bias
 Information bias
 Statistical confounding
 Apakah konten valid atau tidak dipengaruhi oleh:
 pengetahuan peneliti terhadap definisi konsep,  teori tentang konsep yang ada, dan
 bagaimana konsep itu bekerja.  Sample selection bias
 Information bias
Criterion Validity
 making a comparison between a measure and an external
standard.
 Stroke recovery vs level of assistance required
 Score test individual
 Observasi aktifitas harian: mengikat tali sepatu, memakai baju,
menggosok gigi, merapikan tempat tidur, dll.
 Harus ditunjukkan pada instrumen untuk mengukur performa
atau kinerja
 Dibutuhkan:
 Pemahaman yang baik mengenai teori konsep yang diteliti
sehingga bisa ditentukan variable-variable lain berhubungan atau diprediksi akan berhubungan dengan faktor
 making a comparison between a measure and an external
standard.
 Stroke recovery vs level of assistance required
 Score test individual
 Observasi aktifitas harian: mengikat tali sepatu, memakai baju,
menggosok gigi, merapikan tempat tidur, dll.
 Harus ditunjukkan pada instrumen untuk mengukur performa
atau kinerja
 Dibutuhkan:
 Pemahaman yang baik mengenai teori konsep yang diteliti
Predictive validity
Apakah alat ukur yang dibuat bisa memprediksi outcomes.
Misal:
 apakah nilai tes TPA bisa memprediksi keberhasilan
siswa dalam mengikuti proses perkuliahan
 Apakah nilai TPA bisa memprediksi IPK akhir
mahasiswa
 Apakah tes psikologis untuk pegawai baru bisa
memprediksi seberapa loyal pegawai terhadap perusahaan
Apakah alat ukur yang dibuat bisa memprediksi outcomes.
Misal:
 apakah nilai tes TPA bisa memprediksi keberhasilan
siswa dalam mengikuti proses perkuliahan
 Apakah nilai TPA bisa memprediksi IPK akhir
mahasiswa
 Apakah tes psikologis untuk pegawai baru bisa
Multicultural validity
 an instrument measures what it purports to
measure as understood by an audience of a particular culture
 Caranya:
 Menggunakan bahasa yang dimengerti
 Memperhatikan nilai/norma/kebiasaan masyarakat
lokal
 an instrument measures what it purports to
measure as understood by an audience of a particular culture
 Caranya:
 Menggunakan bahasa yang dimengerti
 Memperhatikan nilai/norma/kebiasaan masyarakat
Mengukur validitas dengan
pendekatan qualitative
 Evaluative
 Literature review topik penelitian: memberikan
bukti bahwa instrumen akan mengukur konstruk dan bukan lainnya.
 Expert reviews
 Table spesifikasi: identifikasi variabel topik/faktor
 Induktif/deduktif
 Evaluative
 Literature review topik penelitian: memberikan
bukti bahwa instrumen akan mengukur konstruk dan bukan lainnya.
 Expert reviews
 Table spesifikasi: identifikasi variabel topik/faktor
Mengukur validitas dengan
pendekatan quantitative
 Mengukur kekuatan hubungan antara salah satu
pertanyaan dengan pertanyaan lain dalam konstruk yang sama
 Item analysis
 Factor analysis
 Mengukur kekuatan hubungan antara salah satu
pertanyaan dengan pertanyaan lain dalam konstruk yang sama
 Item analysis
PengukuranValiditas
 Item analysis
 To demonstrate a relationship between individual
items
 Internal consistency reliability  1-2, 1-3, 1-4, 1-5, dst
 2-3, 2-4, 2-5, 2-6, dst  Dst
 Further reading: The basics of item response theory
(Baker, 2001)
 Item analysis
 To demonstrate a relationship between individual
items
 Internal consistency reliability  1-2, 1-3, 1-4, 1-5, dst
 2-3, 2-4, 2-5, 2-6, dst  Dst
 Further reading: The basics of item response theory
Difficulty & Discrimination index
 Tetapkan 10 subjek dg nilai terbaik dan 10 subject
dg nilai terburuk
 Jika subject ke-10 ada beberapa .pilih secara
random
 Hitung berapa banyak subject di kelompok nilai
terbaik dan nilai terburuk yang menjawab
pertanyaan 1 dg benar, pertanyaan 2 dg benar, dst
 Difficulty index: (RU+RL)/20
 Discrimination index: (RU-RL)/10
 Tetapkan 10 subjek dg nilai terbaik dan 10 subject
dg nilai terburuk
 Jika subject ke-10 ada beberapa .pilih secara
random
 Hitung berapa banyak subject di kelompok nilai
terbaik dan nilai terburuk yang menjawab
pertanyaan 1 dg benar, pertanyaan 2 dg benar, dst
 Difficulty index: (RU+RL)/20
Name Item 1
1 1 Difficulty Index: (8+4)/20 = 0.6 2 1 Discrimination index (8-4)/10= 0.4
3 1 Compare to the maximum discriminating index 4 0 Near maximum: very discriminating
5 1 Half the maximum: moderately discriminating 6 1 A quarter the maximum: weak item
7 0 Near zero : non-discriminating 8 1 Negative: bad item
9 1
10 1 RU=8
.. 31 0 32 0 33 1 34 1 35 1 36 0 37 0 38 1 39 0
Reliability
True Score Systematic
Error RandomError SCORE
True Score: yang ingin diukur
Systematic error: kesalahan yang selalu terjadi, misal alat ukur tidak dikalibrasi, sehingga bukannya mengukur mulai dari 0 tapi mulai dari 2
Random error: unpredictable error yang bisa terjadi karena
Sumber random error
 Subject reliability: respondent lelah, mood  Observer reliability: kemampuan
observer/interviewer, background
 Situasional: kondisi saat pengukuran dilakukan
(interview dilakukan dirumah dan dikantor saat
sedang sibuk akan memberikan hasil yang berbeda)
 Instrument: wording yang kurang baik
 Data processing: salah koding, salah entry  Subject reliability: respondent lelah, mood  Observer reliability: kemampuan
observer/interviewer, background
 Situasional: kondisi saat pengukuran dilakukan
(interview dilakukan dirumah dan dikantor saat
sedang sibuk akan memberikan hasil yang berbeda)
 Instrument: wording yang kurang baik
Cara pengukuran Reliability
 Eyeballing : informal method,
 administer the instrument twice to the same group of people in a
relatively short period of time to see if their responses remain the same
 Repeated measurement
1. Test-retest method
 When?
 Carry-over effects
 Too early: over-reliability  Too late: under-reliability
 How?
 Mengukur seberapa kuat hubungan score yang diukur pada 2 waktu yang berbeda dengan correlation coefficient
 Reliable if coefficient correlation >0.7
 Eyeballing : informal method,
 administer the instrument twice to the same group of people in a
relatively short period of time to see if their responses remain the same
 Repeated measurement
1. Test-retest method
 When?
 Carry-over effects
 Too early: over-reliability  Too late: under-reliability
 How?
 Mengukur seberapa kuat hubungan score yang diukur pada 2 waktu yang berbeda dengan correlation coefficient
Inter-rater and Intra-rater Reliability
 Inter rater: >1 rater
 Intra-rater :1 rater
 Calculate with Cohen s Kappa  Inter rater: >1 rater
 Intra-rater :1 rater
k =
OA
-
EA
1
-
EA
Kappa Statistic (Cohen, 1960
Kappa Statistic (Cohen, 1960))
OA = A + D N
OA: Kesepakatan yang terjadi
EA: Kesepakatan yg tidak disengaja
OA
-
EA
1
-
EA
-1 <K<1
OA = A + D N
EA
=
N
1
´
N
3N
+
N
2
´
N
4Observer 1
Ramai Normal Total
Observer 2
Ramai 140 52 192
Normal 69 725 794
Total 209 777 986
Kesepakatan antara observer 1 dan 2 untuk menilai apakah pasar-pasar di jogja ramai atau tidak
chance agreement between ramai-ramai=
chance agreement between normal-normal=
total expected change agreement=
Kappa=
Observed agreement= 140 + 725 986 =
Test-Retest reliability
 pretest the questionnaire with
the same group on two separate occasions, expecting only minor variations in responses.
 Coefficient of variation
 Mirip Eyeballing methods
 pretest the questionnaire with
the same group on two separate occasions, expecting only minor variations in responses.
 Coefficient of variation
Internal Consistency Reliability
 To compare results across and among items within a single instrument and to do so with only one administration.
 Untuk instrumen yang punya lebih dari 1 item
 Seberapa homogen item-item pertanyaan dalam 1 tes
 Seberapa baik item-item pertanyaan itu mengukur satu construct  Cara menghitung:
 Average inter-item and average item-total correlation
 split half reliability
 coefficient alpha
 Kuder Richardson
 To compare results across and among items within a single instrument and to do so with only one administration.
 Untuk instrumen yang punya lebih dari 1 item
 Seberapa homogen item-item pertanyaan dalam 1 tes
 Seberapa baik item-item pertanyaan itu mengukur satu construct  Cara menghitung:
 Average inter-item and average item-total correlation
 split half reliability
 coefficient alpha
 Average inter-item
Internal Consistency Reliability
 Split-half reliability
1. pertanyaan dibagi dua secara random 2. Konstruk di kedua bagian harus sama
3. Hitung skor respondent untuk setiap bagian
4. Hitung coefficient correlations antara skor bagian 1 dan bagian 2 5. Reliable jika coefficient correlation >0.8
 Kuder-Richardson (KR)
 Membandingkan korelasi semua kemungkinan splif half  Hanya cocok utk mengukur instrumen untuk satu konstruk
 Hanya dapat digunakan untuk instrumen yang jawabannya dikotomi,
ya-tidak, betul-salah  Split-half reliability
1. pertanyaan dibagi dua secara random 2. Konstruk di kedua bagian harus sama
3. Hitung skor respondent untuk setiap bagian
4. Hitung coefficient correlations antara skor bagian 1 dan bagian 2 5. Reliable jika coefficient correlation >0.8
 Kuder-Richardson (KR)
 Membandingkan korelasi semua kemungkinan splif half  Hanya cocok utk mengukur instrumen untuk satu konstruk
 Hanya dapat digunakan untuk instrumen yang jawabannya dikotomi,
 Coefficient alpha/ Cronbach s alpha
 Seperti KR, datanya scaled/ranked
 randomly split the items into two sets  compute
the correlation between these sets  Put all the items back  randomly split them into two sets
again  repeat for all possible split half correlations
 calculate the average of all the correlations.
 Internally consistent jika coefficient alpha >0.7
 Coefficient alpha/ Cronbach s alpha
 Seperti KR, datanya scaled/ranked
 randomly split the items into two sets  compute
the correlation between these sets  Put all the items back  randomly split them into two sets
again  repeat for all possible split half correlations
 calculate the average of all the correlations.
Cronbach s alpha
 Paling sering dipakai untuk mengukur internal consistency Diadaptasi oleh Cronbach (1951) dari Kuder&Richardson
(1937)
Vtest
Vi
n
n
1
1
n = jumlah pertanyaanVi = variance score pada setiap pertanyaanVtest = total variance dari skor total (not % s) on the entire test
How alpha works
V
i= p
i* (1-p
i)
» pi = percentage of class who answers correctly
» This formula can be derived from the standard definition of variance.
V
ivaries from 0 to 0.25
How alpha works
V
i= p
i* (1-p
i)
» pi = percentage of class who answers correctly
» This formula can be derived from the standard definition of variance.
V
ivaries from 0 to 0.25
pi 1-pi Vi
0 1 0
Bagaimana jika instrumen tidak reliable?
 Perhatikan jika ada salah satu item instrumen yang
salah
 Perhatikan seberapa kuat hubungan antara
masing-masing item pertanyaan dengan skor
 Item yang berkorelasi rendah dengan total skor
akan menurunkan reliabilitas dan sebaiknya dihilangkan
 Pada metode test-retest, perhatikan pertanyaan
yang skor awal dan akhirnya berbeda jauh.
 Perhatikan jika ada salah satu item instrumen yang
salah
 Perhatikan seberapa kuat hubungan antara
masing-masing item pertanyaan dengan skor
 Item yang berkorelasi rendah dengan total skor
akan menurunkan reliabilitas dan sebaiknya dihilangkan
 Pada metode test-retest, perhatikan pertanyaan
Bagaimana meningkatkan
reliabilitas?
 Pertanyaan tidak ambigu/jelas Pertanyaan spesifik
 Buat beberapa item pertanyaan untuk mengukur
satu variable
 Tetapi jangan terlalu banyak  Pertanyaan tidak ambigu/jelas
 Pertanyaan spesifik
 Buat beberapa item pertanyaan untuk mengukur
satu variable
Generalisability
 From sample to population
Hypothesis Hasil penelitian Kenyataan di
populasi Interpretasi
Null hypothesis (H0):
Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Ada hubungan antara perilaku hidup bersih sehat
dengan kegiatan UKS
Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Null hypothesis ditolak
Null hypothesis (H0):
Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Ada hubungan antara perilaku hidup bersih sehat
dengan kegiatan UKS
Alternative hypothesis (H1) Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Type 1 error
Hypothesis Hasil penelitian Kenyataan di
populasi Interpretasi
Null hypothesis (H0):
Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Null hypothesis diterima Null hypothesis (H0):
Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Alternative hypothesis (H1) Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Type 2 error
Implikasi:
Berapa besar kemungkinan type 1 error?
 Diukur dengan level of significance / p-values
/coefficient alpha
 Semakin kecil coefficient alpha, semakin kecil
kemungkinannya terjadi type 1 error
 Cut-off point yg sering dipakai p<0.05  significant  Dipengaruhi oleh:
 sample size
 Besarnya perbedaan dalam sample
 Interpretasi
 Bagaimana jika p=0.052 atau p=0.049?
 Diukur dengan level of significance / p-values
/coefficient alpha
 Semakin kecil coefficient alpha, semakin kecil
kemungkinannya terjadi type 1 error
 Cut-off point yg sering dipakai p<0.05  significant  Dipengaruhi oleh:
 sample size
 Besarnya perbedaan dalam sample
 Interpretasi
Pertanyaan
 Kalau satu hubungan antar variable menunjukkan
p<0.05 apakah berarti hasil itu penting?
 Jika effect size hubungan antar variable besar,
apakah berarti hubungan itu penting?
 Apakah internal consistency reliability dan construct
validity itu hal yang sama?
 Jika pengukuran statistics menunjukkan hasil yang
signifikan apakah itu berarti fenomenanya bisa ditemukan di populasi umum?
 Kalau satu hubungan antar variable menunjukkan
p<0.05 apakah berarti hasil itu penting?
 Jika effect size hubungan antar variable besar,
apakah berarti hubungan itu penting?
 Apakah internal consistency reliability dan construct
validity itu hal yang sama?
 Jika pengukuran statistics menunjukkan hasil yang
Instrument Qualitative: Interview Guide
 Instruksi
 Beginning : information, informed consent
 Concluding
 Questions
 Open-ended
 Key themes
 Factual questions before opinion questions  Use probes or request to elaborate
 Instruksi
 Beginning : information, informed consent
 Concluding
 Questions
 Open-ended
 Key themes
Meningkatkan trustworthiness
 Thick description
 mengumpulkan data secara rinci dan komprehensif,
yang menggambarkan secara keseluruhan apa yang sedang terjadi
 Negative/defiant case analysis
 Triangulation (data, subject,methods)
 Member checking  Thick description
 mengumpulkan data secara rinci dan komprehensif,
yang menggambarkan secara keseluruhan apa yang sedang terjadi
 Negative/defiant case analysis
 Triangulation (data, subject,methods)