• Tidak ada hasil yang ditemukan

2017 Metopen Sesi 13 TS Validity Reliability Instrumen

N/A
N/A
Protected

Academic year: 2017

Membagikan "2017 Metopen Sesi 13 TS Validity Reliability Instrumen"

Copied!
88
0
0

Teks penuh

(1)

Instrumen Penelitian,

Validitas dan Reliabilitas

(2)

(3)
(4)

An

instrument

is a

mechanism for

measuring

phenomena, which is used

to

gather

and

record

information

for

assessment, decision

making, and ultimately

understanding.

An

instrument

is a

mechanism for

measuring

phenomena, which is used

to

gather

and

record

information

for

assessment, decision

making, and ultimately

(5)

Teori

Konsep

Definisi Operasional

(6)
(7)

Komponen Instrumen

Judul

Pendahuluan: Mengapa, Bagaimana, Jenis informasi apa yang dibutuhkan, manfaat, informed consent

Petunjuk pengisian Petunjuk pengisian Pertanyaan

(8)

Memilih instrumen

Tujuan penelitian

Rancangan penelitian

Objek yang diteliti

Methodologi pengumpulan data

Resources/Sumber daya

Tergantung

:

Tujuan penelitian

Rancangan penelitian

Objek yang diteliti

(9)

Faktor-faktor yg dipertimbangkan:

 Karakteristik populasi

 Literacy, physical/mental abilities, motivasi

 Informasi ttg populasi yg akan diteliti

 No telp, alamat

 Akses ke responden

 Lokasi, waktu, infrastructure yang ada (telephone, internet)

 Tujuan survey

 Kompleksitas pertanyaan, sensitifitas topik,

 Bentuk kuesioner yang akan diberikan

 Open-ended, close-ended

 Perkiraan response rate  Karakteristik populasi

 Literacy, physical/mental abilities, motivasi

 Informasi ttg populasi yg akan diteliti

 No telp, alamat

 Akses ke responden

 Lokasi, waktu, infrastructure yang ada (telephone, internet)

 Tujuan survey

 Kompleksitas pertanyaan, sensitifitas topik,

 Bentuk kuesioner yang akan diberikan

 Open-ended, close-ended

(10)
(11)

Metode pengumpulan data

Self-administered

 Individual, Surat  Group

 Pooling

 Email/internet

Observation

 Penilaian siswa untuk dosen  Checklist

Kombinasi format dan pendekatan

 Perilaku + Emosi

 Checklist+ fill the blank+rating scales

Self-administered

 Individual, Surat  Group

 Pooling

 Email/internet

Observation

 Penilaian siswa untuk dosen  Checklist

Kombinasi format dan pendekatan

 Perilaku + Emosi

(12)

Questionnaire

 A self-contained and a self-administered instrument

for asking questions.

 Lack the personal touch

 Extremely efficient

 Most popular

 Good questionnaire  stands on its own

 A self-contained and a self-administered instrument

for asking questions.

 Lack the personal touch

 Extremely efficient

 Most popular

(13)

Risks

Low response rates

Bias

Responden bias, half-selection

Respondent honesty

over-report good things, and under-report bad things

Wording

(14)

Question Rules and bad examples

Clear in meaning and free of ambiguity

Apakah anda olahraga secara rutin? Berapa nilai total kekayaan anda? Apakah anda olahraga secara rutin?

Berapa nilai total kekayaan anda?

Use common everyday language, avoid jargons, abbreviations, or acronyms

MDGs, Renstra, Angka kematian,

Use neutral language, avoid emotional, leading language What do you find offensive about flag burning?

(15)

Simple and easy

How do you rate police response time to emergency and non-emergency calls?

How many cigarettes you smokes in a year? How do you rate police response time to emergency and non-emergency calls?

How many cigarettes you smokes in a year?

Asks yourself

Does the questions answers my research question? Is related questionnaire existed?

(16)

Menulis pertanyaan

 Full script, ditulis lengkap

 Bermakna sama untuk semua responden

 Respondent bisa memahami jawabannya

 Disusun dengan baik

 Menghindari kata-kata sulit

 Menghindari kalimat negative

 Menanyakan dua atau lebih pertanyaan pada saat yang sama  Full script, ditulis lengkap

 Bermakna sama untuk semua responden

 Respondent bisa memahami jawabannya

 Disusun dengan baik

 Menghindari kata-kata sulit

 Menghindari kalimat negative

(17)

 Menghindari kalimat panjang dan kompleks  Menghindari kalimat yang mengandung asumsi  Menghindari pertanyaan hipothetical

 Hindari pertanyaan yang responden tidak tahu

jawabannya

 Hindari pertanyaan tentang causality (sebab-akibat)  Jika menyebutkan harus jelas dan eksplisit

 Jika diperlukan bisa menjelaskan istilah yang digunakan,

tetapi tidak di pertanyaan

 Dll (handout mp)

 Menghindari kalimat panjang dan kompleks  Menghindari kalimat yang mengandung asumsi  Menghindari pertanyaan hipothetical

 Hindari pertanyaan yang responden tidak tahu

jawabannya

 Hindari pertanyaan tentang causality (sebab-akibat)  Jika menyebutkan harus jelas dan eksplisit

 Jika diperlukan bisa menjelaskan istilah yang digunakan,

tetapi tidak di pertanyaan

(18)

Contoh standar questionnaires

 Generic instruments

 COOP/WONCA charts: measure six core aspects of functional status: physical

fitness, feelings, daily activities, social activities, change in health and overall health.

Sickness Impact Profile (SIP)/Functional Limitations Profile (FLP)

 RAND SF 36

 Duke Health Profile (DUKE)  EuroQol

 MOS 20

Nottingham Health Profile

 RAND General Health Perception Questionnaire (GHPQ)  Generic instruments

 COOP/WONCA charts: measure six core aspects of functional status: physical

fitness, feelings, daily activities, social activities, change in health and overall health.

Sickness Impact Profile (SIP)/Functional Limitations Profile (FLP)

 RAND SF 36

 Duke Health Profile (DUKE)  EuroQol

 MOS 20

Nottingham Health Profile

(19)

 Dimension specific instruments

 Barthel Index

 Index of Independence in Activities of Daily Living  Frenchay Activities Index

 General Health Questionnaire (GHQ)  RAND Mental Health Inventory (MHI)  McGill Pain Questionnaire (MPQ)

 Dimension specific instruments

 Barthel Index

 Index of Independence in Activities of Daily Living  Frenchay Activities Index

(20)

 Disease/condition specific instruments

 State-Trait Anxiety Inventory (STAI)

 Center for Epidemiologic Studies Depression Scale (CES-D)  Arthritis Impact Measurement Scale (AIMS)

 Living with Asthma (AQ)

 Chronic Respiratory Disease Questionnaire (CRDQ)  Asthma Quality of Life Questionnaire (AQLQ)

 Diabetes Health Profile IDDM (DHP 1) and NIDDM (DHP2)  Diabetes Quality-of-Life measure (DQOL)

 EORTC Quality of Life Questionnaire

 Disease/condition specific instruments

 State-Trait Anxiety Inventory (STAI)

 Center for Epidemiologic Studies Depression Scale (CES-D)  Arthritis Impact Measurement Scale (AIMS)

 Living with Asthma (AQ)

 Chronic Respiratory Disease Questionnaire (CRDQ)  Asthma Quality of Life Questionnaire (AQLQ)

 Diabetes Health Profile IDDM (DHP 1) and NIDDM (DHP2)  Diabetes Quality-of-Life measure (DQOL)

(21)

Membuat isi kuesioner

 Melakukan literature review

 Gunakan sarana/kuesioner yang sudah ada  Brainstorming

 Nominal Group Technique  Grup 5-6 orang

Fasilitator menjelaskan ide/masalah/tujuan

 Setiap peserta memberikan ide tertulis dan dishare

 Anggota grup lainnya tidak mengkritik, tapi bisa minta klarifikasi  Mengulang proses brainstorming sampai seluruh ide

terkumpulkan

 Setiap peserta mereview alternatif yang muncul  Membuat rangking prioritas

 Melakukan literature review

 Gunakan sarana/kuesioner yang sudah ada  Brainstorming

 Nominal Group Technique  Grup 5-6 orang

Fasilitator menjelaskan ide/masalah/tujuan

 Setiap peserta memberikan ide tertulis dan dishare

 Anggota grup lainnya tidak mengkritik, tapi bisa minta klarifikasi  Mengulang proses brainstorming sampai seluruh ide

terkumpulkan

(22)

Membuat isi kuesioner

 Snowballing / Pyramiding

 2  2+2  4+4  dst

 Delphi technique

 Mengumpulkan input content dan methodologi dari

expert melalui email/surat.

 Draft dibuat oleh peneliti dan dikirimkan kepada

ahli.

 Ahli memberikan komentar secara independen

 Snowballing / Pyramiding

 2  2+2  4+4  dst

 Delphi technique

 Mengumpulkan input content dan methodologi dari

expert melalui email/surat.

 Draft dibuat oleh peneliti dan dikirimkan kepada

ahli.

(23)

Membuat isi kuesioner

 Questions Pool and Q-sort

 60-90 pertanyaan

 Print pertanyaan di kartu

 Acak kartu

 Buat kriteria rangking:

most definitely include this item,include this item,

possibly include this item, and  definitely do not include this item.

 Questions Pool and Q-sort

 60-90 pertanyaan

 Print pertanyaan di kartu

 Acak kartu

 Buat kriteria rangking:

most definitely include this item,include this item,

(24)

Membuat isi kuesioner

 Concept Mapping

Preparation.Generation.

 brainstorming, nominal group technique, to generate

statements describing activities related to the project.

Structuring.

 sort the statements: Q-sort or other ranking process.

Representation.

 create visual maps that reflect the relationship

between the sorted items.

Interpretation.Utilization.

 Concept Mapping

Preparation.Generation.

 brainstorming, nominal group technique, to generate

statements describing activities related to the project.

Structuring.

 sort the statements: Q-sort or other ranking process.

Representation.

 create visual maps that reflect the relationship

between the sorted items.

(25)
(26)

Pengukuran

 Pengukuran adalah suatu proses yang sistematik

dan berulang untuk menghitung atau

mengklasifikasikan objek atau kejadian dengan menggunakan dimensi tertentu.

 Biasanya dicapai dengan penggunaan angka

(numerik values)

 Pengukuran adalah suatu proses yang sistematik

dan berulang untuk menghitung atau

mengklasifikasikan objek atau kejadian dengan menggunakan dimensi tertentu.

 Biasanya dicapai dengan penggunaan angka

(27)
(28)
(29)
(30)

Likert Scale

Rensis Likert 1903 1981 Agreement Sangat Setuju Setuju Ragu-ragu Tidak Setuju

Sangat tidak setuju

Frequency Sangat sering Sering Kadang-kadang Jarang Tidak pernah Agreement Sangat Setuju Setuju Ragu-ragu Tidak Setuju

Sangat tidak setuju

Frequency Sangat sering Sering Kadang-kadang Jarang Tidak pernah Importance Sangat penting Penting Agak penting

Tidak terlalu penting Tidak penting

Likelihood

Hampir selalu benar Biasanya benar

Kadang-kadang benar Biasanya tidak benar

(31)

Analisis Skala Likert

 Likert Scale: is the sum of responses on several Likert

items

 Ordinal or Interval  Deskriptif

 Median, Mode, Percentiles/quartiles, Display

Distribution (bar chart)

 Non-parametric test

 Chi-squared, Mann Whitney test, Wilcoxon signed-rank

test, Kruskal-Wallis test

 Modified binomial Likert Scale

 Chi-squared, Cochran-Q, McNemar test

 Likert Scale: is the sum of responses on several Likert

items

 Ordinal or Interval  Deskriptif

 Median, Mode, Percentiles/quartiles, Display

Distribution (bar chart)

 Non-parametric test

 Chi-squared, Mann Whitney test, Wilcoxon signed-rank

test, Kruskal-Wallis test

 Modified binomial Likert Scale

(32)
(33)

Pretesting

Initial Pretesting

 Individual Interviews and Focus Groups  Review by Content Area Experts

 Continue to Obtain Feedback and Revise the Project If

Necessary

Pretesting during development

 Read and Reread the Items and Read the Items Aloud  Review by Content Area Experts

 Review by Instrument Construction Experts  Review by Individuals with Expertise in Writing  Review by Potential Users

Initial Pretesting

 Individual Interviews and Focus Groups  Review by Content Area Experts

 Continue to Obtain Feedback and Revise the Project If

Necessary

Pretesting during development

 Read and Reread the Items and Read the Items Aloud  Review by Content Area Experts

(34)

Pilot testing

 Questions for experts

 Was each set of directions clear (that is, the general directions at the

beginning of the questionnaire and any subsequent directions provided in the body of the instrument)?

 Were there any spelling or grammatical problems? Were any items

difficult to read due to sentence length, choice of words, or special terminology?

 How did the reviewer interpret each item? What did each question

mean to them?

 Did the reviewer experience problems with the item format(s), or

does the reviewer have suggestions for alternative formats?

 Were the response alternatives appropriate to each item?

 Questions for experts

 Was each set of directions clear (that is, the general directions at the

beginning of the questionnaire and any subsequent directions provided in the body of the instrument)?

 Were there any spelling or grammatical problems? Were any items

difficult to read due to sentence length, choice of words, or special terminology?

 How did the reviewer interpret each item? What did each question

mean to them?

 Did the reviewer experience problems with the item format(s), or

does the reviewer have suggestions for alternative formats?

(35)

Pilot testing

 What problems did the reviewer encounter as a result of the organization of

the instrument, such as how items fl owed?

 On average, how long did it take to complete? What was the longest time

and what was the shortest time it took to complete the instrument?

 For Web-based instruments, did the respondent encounter any problems

accessing the instrument from a computer or navigating the instrument once it was accessed?

 Did any of the reviewers express concern about the length of the

instrument, or did they report problems with fatigue due to the time it took to complete?

 What was the reviewer s overall reaction to the questionnaire?

 Did they have any concerns about confi dentiality or how the questionnaire

would be used?

 Did they have any other concerns?

 What suggestions do they have for making the questionnaire or individual

items easier to understand and complete?

 What problems did the reviewer encounter as a result of the organization of

the instrument, such as how items fl owed?

 On average, how long did it take to complete? What was the longest time

and what was the shortest time it took to complete the instrument?

 For Web-based instruments, did the respondent encounter any problems

accessing the instrument from a computer or navigating the instrument once it was accessed?

 Did any of the reviewers express concern about the length of the

instrument, or did they report problems with fatigue due to the time it took to complete?

 What was the reviewer s overall reaction to the questionnaire?

 Did they have any concerns about confi dentiality or how the questionnaire

would be used?

 Did they have any other concerns?

 What suggestions do they have for making the questionnaire or individual

(36)

Pilot testing

Obtain evidence of reliability.

Establish evidence of face validity

Obtain evidence of content validity

Obtain evidence of criterion validity

Obtain evidence of construct validityObtain evidence of reliability.

Establish evidence of face validity

Obtain evidence of content validity

Obtain evidence of criterion validity

(37)
(38)

Reliability

Measurement

(39)
(40)

 Judul: mengukur kepuasan kerja

 Bagaimana tingkat kepuasan kerja Anda? Scala

 Faktor-faktor apa yang bisa mempengaruhi tingkat

kepuasan kerja Anda? Free listing, checklist, kombinasi

 Apakah gaya komunikasi pimpinan mempengaruhi

kepuasan kerja. Ya Tidak

 Apakah besaran insentif mempengaruhi  Judul: mengukur kepuasan kerja

 Bagaimana tingkat kepuasan kerja Anda? Scala

 Faktor-faktor apa yang bisa mempengaruhi tingkat

kepuasan kerja Anda? Free listing, checklist, kombinasi

 Apakah gaya komunikasi pimpinan mempengaruhi

kepuasan kerja. Ya Tidak

(41)

Contoh penelitian: mengukur tinggi badan

rata-rata anak SD di DIY

 Yang diukur harus tinggi badan, BUKAN berat badan  Valid

 Alat ukurnya akan memberikan hasil yang sama meskipun

seseorang diukur tinggi badannya berulang-ulang  Reliable

 Hasil dari pengukuran tinggi anak SD di DIY ini diharapkan

bisa menggambarkan tinggi rata-rata anak SD di Jawa 

Generalisir

 Yang diukur harus tinggi badan, BUKAN berat badan  Valid

 Alat ukurnya akan memberikan hasil yang sama meskipun

seseorang diukur tinggi badannya berulang-ulang  Reliable

 Hasil dari pengukuran tinggi anak SD di DIY ini diharapkan

bisa menggambarkan tinggi rata-rata anak SD di Jawa 

(42)

Validity

 Apakah kita mengukur apa yang ingin kita ukur?

 Konsep seringkali sulit diukur

 Misalnya:

 Konsep : Pengetahuan.  Latent & Manifest Variable

 Apakah kita mengukur apa yang ingin kita ukur?

 Konsep seringkali sulit diukur

 Misalnya:

(43)

TipeValidity

Face Validity Constructvalidity validity/internalContent validity

Face Validity Constructvalidity validity/internalContent validity

Criterion

(44)

Face Validity

Face validity is the degree to which an instrument appears to

be an appropriate measure for obtaining the desired

information, particularly from the perspective of a potential respondent.

 Responden diminta untuk menilai apakah instrumen

penelitian (misal kuesioner) valid menurut mereka

 Apakah responden bisa menangkap maksud pertanyaan

sesuai yang dimaksud peneliti

 Orang biasa  Expert

 Contoh: kuesioner tentang gaya hidup sehat, pertanyaan:

seberapa sering Anda olahraga?  Face validity: Valid

Face validity is the degree to which an instrument appears to

be an appropriate measure for obtaining the desired

information, particularly from the perspective of a potential respondent.

 Responden diminta untuk menilai apakah instrumen

penelitian (misal kuesioner) valid menurut mereka

 Apakah responden bisa menangkap maksud pertanyaan

sesuai yang dimaksud peneliti

 Orang biasa  Expert

 Contoh: kuesioner tentang gaya hidup sehat, pertanyaan:

(45)

Construct Validity

 Memastikan peneliti dgn responden memahami konstruk yang

sama

 Safety, intelligence, leadership, cleanness

 Internal structure

 Related to the theoretical of knowledge

 Operationalization

 Terdiri dari :

 Convergent validity : + contoh: depresi dan perasaan tidak berguna  Discriminant validity: - contoh: depresi dan perasaan bahagia

 Harus dilaporkan keduanya

 Memastikan peneliti dgn responden memahami konstruk yang

sama

 Safety, intelligence, leadership, cleanness

 Internal structure

 Related to the theoretical of knowledge

 Operationalization

 Terdiri dari :

 Convergent validity : + contoh: depresi dan perasaan tidak berguna  Discriminant validity: - contoh: depresi dan perasaan bahagia

(46)

Convergent Validity

to show that

measures that should be related are in

reality related to show that

measures that should be related are in

(47)

Discriminant Validity

to show that measures that should not be related are in reality not related to show that

(48)

Pengetahuan

Perilaku

Sikap

(49)

Content/internal validity

 the degree to which an instrument is representative of the

topic and process being investigated.

 Misalnya: Konsep: mengukur sikap murid terhadap guru

 Alat ukur sikap dg skala Likert

 Saya mendengarkan semua kata orang tua  Guru saya selalu berusaha membantu saya

 Saya selalu mengucapkan salam setiap bertemu guru

 Literatur review : meningkatkan kemampuan peneliti untuk

mencapai content validity

 the degree to which an instrument is representative of the

topic and process being investigated.

 Misalnya: Konsep: mengukur sikap murid terhadap guru

 Alat ukur sikap dg skala Likert

 Saya mendengarkan semua kata orang tua  Guru saya selalu berusaha membantu saya

 Saya selalu mengucapkan salam setiap bertemu guru

 Literatur review : meningkatkan kemampuan peneliti untuk

(50)

 Apakah konten valid atau tidak dipengaruhi oleh:

 pengetahuan peneliti terhadap definisi konsep,  teori tentang konsep yang ada, dan

 bagaimana konsep itu bekerja.  Sample selection bias

 Information bias

 Statistical confounding

 Apakah konten valid atau tidak dipengaruhi oleh:

 pengetahuan peneliti terhadap definisi konsep,  teori tentang konsep yang ada, dan

 bagaimana konsep itu bekerja.  Sample selection bias

 Information bias

(51)

Criterion Validity

 making a comparison between a measure and an external

standard.

 Stroke recovery vs level of assistance required

 Score test individual

 Observasi aktifitas harian: mengikat tali sepatu, memakai baju,

menggosok gigi, merapikan tempat tidur, dll.

 Harus ditunjukkan pada instrumen untuk mengukur performa

atau kinerja

 Dibutuhkan:

 Pemahaman yang baik mengenai teori konsep yang diteliti

sehingga bisa ditentukan variable-variable lain berhubungan atau diprediksi akan berhubungan dengan faktor

 making a comparison between a measure and an external

standard.

 Stroke recovery vs level of assistance required

 Score test individual

 Observasi aktifitas harian: mengikat tali sepatu, memakai baju,

menggosok gigi, merapikan tempat tidur, dll.

 Harus ditunjukkan pada instrumen untuk mengukur performa

atau kinerja

 Dibutuhkan:

 Pemahaman yang baik mengenai teori konsep yang diteliti

(52)

Predictive validity

Apakah alat ukur yang dibuat bisa memprediksi outcomes.

Misal:

 apakah nilai tes TPA bisa memprediksi keberhasilan

siswa dalam mengikuti proses perkuliahan

 Apakah nilai TPA bisa memprediksi IPK akhir

mahasiswa

 Apakah tes psikologis untuk pegawai baru bisa

memprediksi seberapa loyal pegawai terhadap perusahaan

Apakah alat ukur yang dibuat bisa memprediksi outcomes.

Misal:

 apakah nilai tes TPA bisa memprediksi keberhasilan

siswa dalam mengikuti proses perkuliahan

 Apakah nilai TPA bisa memprediksi IPK akhir

mahasiswa

 Apakah tes psikologis untuk pegawai baru bisa

(53)

Multicultural validity

 an instrument measures what it purports to

measure as understood by an audience of a particular culture

 Caranya:

 Menggunakan bahasa yang dimengerti

 Memperhatikan nilai/norma/kebiasaan masyarakat

lokal

 an instrument measures what it purports to

measure as understood by an audience of a particular culture

 Caranya:

 Menggunakan bahasa yang dimengerti

 Memperhatikan nilai/norma/kebiasaan masyarakat

(54)

Mengukur validitas dengan

pendekatan qualitative

 Evaluative

 Literature review topik penelitian: memberikan

bukti bahwa instrumen akan mengukur konstruk dan bukan lainnya.

 Expert reviews

 Table spesifikasi: identifikasi variabel topik/faktor

 Induktif/deduktif

 Evaluative

 Literature review topik penelitian: memberikan

bukti bahwa instrumen akan mengukur konstruk dan bukan lainnya.

 Expert reviews

 Table spesifikasi: identifikasi variabel topik/faktor

(55)

Mengukur validitas dengan

pendekatan quantitative

 Mengukur kekuatan hubungan antara salah satu

pertanyaan dengan pertanyaan lain dalam konstruk yang sama

 Item analysis

 Factor analysis

 Mengukur kekuatan hubungan antara salah satu

pertanyaan dengan pertanyaan lain dalam konstruk yang sama

 Item analysis

(56)

PengukuranValiditas

 Item analysis

 To demonstrate a relationship between individual

items

 Internal consistency reliability  1-2, 1-3, 1-4, 1-5, dst

 2-3, 2-4, 2-5, 2-6, dst  Dst

 Further reading: The basics of item response theory

(Baker, 2001)

 Item analysis

 To demonstrate a relationship between individual

items

 Internal consistency reliability  1-2, 1-3, 1-4, 1-5, dst

 2-3, 2-4, 2-5, 2-6, dst  Dst

 Further reading: The basics of item response theory

(57)

Difficulty & Discrimination index

 Tetapkan 10 subjek dg nilai terbaik dan 10 subject

dg nilai terburuk

 Jika subject ke-10 ada beberapa .pilih secara

random

 Hitung berapa banyak subject di kelompok nilai

terbaik dan nilai terburuk yang menjawab

pertanyaan 1 dg benar, pertanyaan 2 dg benar, dst

 Difficulty index: (RU+RL)/20

 Discrimination index: (RU-RL)/10

 Tetapkan 10 subjek dg nilai terbaik dan 10 subject

dg nilai terburuk

 Jika subject ke-10 ada beberapa .pilih secara

random

 Hitung berapa banyak subject di kelompok nilai

terbaik dan nilai terburuk yang menjawab

pertanyaan 1 dg benar, pertanyaan 2 dg benar, dst

 Difficulty index: (RU+RL)/20

(58)

Name Item 1

1 1 Difficulty Index: (8+4)/20 = 0.6 2 1 Discrimination index (8-4)/10= 0.4

3 1 Compare to the maximum discriminating index 4 0 Near maximum: very discriminating

5 1 Half the maximum: moderately discriminating 6 1 A quarter the maximum: weak item

7 0 Near zero : non-discriminating 8 1 Negative: bad item

9 1

10 1 RU=8

.. 31 0 32 0 33 1 34 1 35 1 36 0 37 0 38 1 39 0

(59)

Reliability

True Score Systematic

Error RandomError SCORE

True Score: yang ingin diukur

Systematic error: kesalahan yang selalu terjadi, misal alat ukur tidak dikalibrasi, sehingga bukannya mengukur mulai dari 0 tapi mulai dari 2

Random error: unpredictable error yang bisa terjadi karena

(60)

Sumber random error

 Subject reliability: respondent lelah, mood  Observer reliability: kemampuan

observer/interviewer, background

 Situasional: kondisi saat pengukuran dilakukan

(interview dilakukan dirumah dan dikantor saat

sedang sibuk akan memberikan hasil yang berbeda)

 Instrument: wording yang kurang baik

 Data processing: salah koding, salah entry  Subject reliability: respondent lelah, mood  Observer reliability: kemampuan

observer/interviewer, background

 Situasional: kondisi saat pengukuran dilakukan

(interview dilakukan dirumah dan dikantor saat

sedang sibuk akan memberikan hasil yang berbeda)

 Instrument: wording yang kurang baik

(61)

Cara pengukuran Reliability

 Eyeballing : informal method,

 administer the instrument twice to the same group of people in a

relatively short period of time to see if their responses remain the same

 Repeated measurement

1. Test-retest method

 When?

 Carry-over effects

 Too early: over-reliability  Too late: under-reliability

 How?

 Mengukur seberapa kuat hubungan score yang diukur pada 2 waktu yang berbeda dengan correlation coefficient

Reliable if coefficient correlation >0.7

 Eyeballing : informal method,

 administer the instrument twice to the same group of people in a

relatively short period of time to see if their responses remain the same

 Repeated measurement

1. Test-retest method

 When?

 Carry-over effects

 Too early: over-reliability  Too late: under-reliability

 How?

 Mengukur seberapa kuat hubungan score yang diukur pada 2 waktu yang berbeda dengan correlation coefficient

(62)
(63)
(64)

Inter-rater and Intra-rater Reliability

 Inter rater: >1 rater

 Intra-rater :1 rater

 Calculate with Cohen s Kappa  Inter rater: >1 rater

 Intra-rater :1 rater

(65)

k =

OA

-

EA

1

-

EA

Kappa Statistic (Cohen, 1960

Kappa Statistic (Cohen, 1960))

OA = A + D N

OA: Kesepakatan yang terjadi

EA: Kesepakatan yg tidak disengaja

OA

-

EA

1

-

EA

-1 <K<1

OA = A + D N

EA

=

N

1

´

N

3

N

+

N

2

´

N

4
(66)

Observer 1

Ramai Normal Total

Observer 2

Ramai 140 52 192

Normal 69 725 794

Total 209 777 986

Kesepakatan antara observer 1 dan 2 untuk menilai apakah pasar-pasar di jogja ramai atau tidak

chance agreement between ramai-ramai=

chance agreement between normal-normal=

total expected change agreement=

Kappa=

Observed agreement= 140 + 725 986 =

(67)

Test-Retest reliability

 pretest the questionnaire with

the same group on two separate occasions, expecting only minor variations in responses.

 Coefficient of variation

 Mirip Eyeballing methods

 pretest the questionnaire with

the same group on two separate occasions, expecting only minor variations in responses.

 Coefficient of variation

(68)

Internal Consistency Reliability

 To compare results across and among items within a single instrument and to do so with only one administration.

 Untuk instrumen yang punya lebih dari 1 item

 Seberapa homogen item-item pertanyaan dalam 1 tes

 Seberapa baik item-item pertanyaan itu mengukur satu construct  Cara menghitung:

Average inter-item and average item-total correlation

split half reliability

coefficient alpha

Kuder Richardson

 To compare results across and among items within a single instrument and to do so with only one administration.

 Untuk instrumen yang punya lebih dari 1 item

 Seberapa homogen item-item pertanyaan dalam 1 tes

 Seberapa baik item-item pertanyaan itu mengukur satu construct  Cara menghitung:

Average inter-item and average item-total correlation

split half reliability

coefficient alpha

(69)

 Average inter-item

(70)

Internal Consistency Reliability

 Split-half reliability

1. pertanyaan dibagi dua secara random 2. Konstruk di kedua bagian harus sama

3. Hitung skor respondent untuk setiap bagian

4. Hitung coefficient correlations antara skor bagian 1 dan bagian 2 5. Reliable jika coefficient correlation >0.8

 Kuder-Richardson (KR)

 Membandingkan korelasi semua kemungkinan splif half  Hanya cocok utk mengukur instrumen untuk satu konstruk

 Hanya dapat digunakan untuk instrumen yang jawabannya dikotomi,

ya-tidak, betul-salah  Split-half reliability

1. pertanyaan dibagi dua secara random 2. Konstruk di kedua bagian harus sama

3. Hitung skor respondent untuk setiap bagian

4. Hitung coefficient correlations antara skor bagian 1 dan bagian 2 5. Reliable jika coefficient correlation >0.8

 Kuder-Richardson (KR)

 Membandingkan korelasi semua kemungkinan splif half  Hanya cocok utk mengukur instrumen untuk satu konstruk

 Hanya dapat digunakan untuk instrumen yang jawabannya dikotomi,

(71)

 Coefficient alpha/ Cronbach s alpha

 Seperti KR, datanya scaled/ranked

 randomly split the items into two sets  compute

the correlation between these sets  Put all the items back  randomly split them into two sets

again  repeat for all possible split half correlations

 calculate the average of all the correlations.

 Internally consistent jika coefficient alpha >0.7

 Coefficient alpha/ Cronbach s alpha

 Seperti KR, datanya scaled/ranked

 randomly split the items into two sets  compute

the correlation between these sets  Put all the items back  randomly split them into two sets

again  repeat for all possible split half correlations

 calculate the average of all the correlations.

(72)

Cronbach s alpha

 Paling sering dipakai untuk mengukur internal consistency

 Diadaptasi oleh Cronbach (1951) dari Kuder&Richardson

(1937)

Vtest

Vi

n

n

1

1

n = jumlah pertanyaanVi = variance score pada setiap pertanyaan

Vtest = total variance dari skor total (not % s) on the entire test

(73)

How alpha works

V

i

= p

i

* (1-p

i

)

» pi = percentage of class who answers correctly

» This formula can be derived from the standard definition of variance.

V

i

varies from 0 to 0.25

How alpha works

V

i

= p

i

* (1-p

i

)

» pi = percentage of class who answers correctly

» This formula can be derived from the standard definition of variance.

V

i

varies from 0 to 0.25

pi 1-pi Vi

0 1 0

(74)

Bagaimana jika instrumen tidak reliable?

 Perhatikan jika ada salah satu item instrumen yang

salah

 Perhatikan seberapa kuat hubungan antara

masing-masing item pertanyaan dengan skor

 Item yang berkorelasi rendah dengan total skor

akan menurunkan reliabilitas dan sebaiknya dihilangkan

 Pada metode test-retest, perhatikan pertanyaan

yang skor awal dan akhirnya berbeda jauh.

 Perhatikan jika ada salah satu item instrumen yang

salah

 Perhatikan seberapa kuat hubungan antara

masing-masing item pertanyaan dengan skor

 Item yang berkorelasi rendah dengan total skor

akan menurunkan reliabilitas dan sebaiknya dihilangkan

 Pada metode test-retest, perhatikan pertanyaan

(75)

Bagaimana meningkatkan

reliabilitas?

 Pertanyaan tidak ambigu/jelas

 Pertanyaan spesifik

 Buat beberapa item pertanyaan untuk mengukur

satu variable

 Tetapi jangan terlalu banyak  Pertanyaan tidak ambigu/jelas

 Pertanyaan spesifik

 Buat beberapa item pertanyaan untuk mengukur

satu variable

(76)

Generalisability

 From sample to population

(77)

Hypothesis Hasil penelitian Kenyataan di

populasi Interpretasi

Null hypothesis (H0):

Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Ada hubungan antara perilaku hidup bersih sehat

dengan kegiatan UKS

Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS

Null hypothesis ditolak

Null hypothesis (H0):

Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Ada hubungan antara perilaku hidup bersih sehat

dengan kegiatan UKS

Alternative hypothesis (H1) Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS

Type 1 error

(78)

Hypothesis Hasil penelitian Kenyataan di

populasi Interpretasi

Null hypothesis (H0):

Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Null hypothesis diterima Null hypothesis (H0):

Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Alternative hypothesis (H1) Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS

Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS

Type 2 error

Implikasi:

(79)
(80)

Berapa besar kemungkinan type 1 error?

 Diukur dengan level of significance / p-values

/coefficient alpha

 Semakin kecil coefficient alpha, semakin kecil

kemungkinannya terjadi type 1 error

 Cut-off point yg sering dipakai p<0.05  significant  Dipengaruhi oleh:

 sample size

 Besarnya perbedaan dalam sample

 Interpretasi

 Bagaimana jika p=0.052 atau p=0.049?

 Diukur dengan level of significance / p-values

/coefficient alpha

 Semakin kecil coefficient alpha, semakin kecil

kemungkinannya terjadi type 1 error

 Cut-off point yg sering dipakai p<0.05  significant  Dipengaruhi oleh:

 sample size

 Besarnya perbedaan dalam sample

 Interpretasi

(81)

Pertanyaan

 Kalau satu hubungan antar variable menunjukkan

p<0.05 apakah berarti hasil itu penting?

 Jika effect size hubungan antar variable besar,

apakah berarti hubungan itu penting?

 Apakah internal consistency reliability dan construct

validity itu hal yang sama?

 Jika pengukuran statistics menunjukkan hasil yang

signifikan apakah itu berarti fenomenanya bisa ditemukan di populasi umum?

 Kalau satu hubungan antar variable menunjukkan

p<0.05 apakah berarti hasil itu penting?

 Jika effect size hubungan antar variable besar,

apakah berarti hubungan itu penting?

 Apakah internal consistency reliability dan construct

validity itu hal yang sama?

 Jika pengukuran statistics menunjukkan hasil yang

(82)

Instrument Qualitative: Interview Guide

 Instruksi

 Beginning : information, informed consent

 Concluding

 Questions

 Open-ended

 Key themes

 Factual questions before opinion questions  Use probes or request to elaborate

 Instruksi

 Beginning : information, informed consent

 Concluding

 Questions

 Open-ended

 Key themes

(83)

(84)
(85)
(86)
(87)

Meningkatkan trustworthiness

 Thick description

 mengumpulkan data secara rinci dan komprehensif,

yang menggambarkan secara keseluruhan apa yang sedang terjadi

 Negative/defiant case analysis

 Triangulation (data, subject,methods)

 Member checking  Thick description

 mengumpulkan data secara rinci dan komprehensif,

yang menggambarkan secara keseluruhan apa yang sedang terjadi

 Negative/defiant case analysis

 Triangulation (data, subject,methods)

(88)

Referensi

Dokumen terkait

Praktik Pengalaman Lapangan (PPL) merupakan semua kegiatan kurikuler yang wajib dilaksanakan oleh semua mahasiswa sebagai latihan untuk menerapkan materi – materi atau

Raja baru itu menawarkan belanda ini kembali pada bantuan untuk melawan musuh- musuhnya dan kebebasan dari perdagangan untuk orang jawa selain jawa, dan untuk semua orang

kisi-kisi instrumen yang digunakan untuk mengukur variabel. komunikasi yang diujicobakan dan juga sebagai kisi-kisi

Ekstraksi anatase dilakukan dengan proses separasi magnetik dan dikarakterisasi XRF, dimana hasilnya menunjukkan senyawa utama dalam pasir mineral adalah Fe 2 O 3 dan TiO 2

empiris adalah senyatanya, usaha nyata, khususnya yang berkaitan dengan masalah tindakan nyata yang dilakukan Badan Pengawas. Obat dan Makanan dalam melakukan

Menurut pengalaman anda apakah katekis menggunakan metode yang menarik dalam pelaksanaan pembinaan iman

 Membuat resume (CREATIVITY) dengan bimbingan guru tentang point-point penting yang muncul dalam kegiatan pembelajaran tentang materi yang baru dilakukan..

Peraturan Komisi Pemilihan umum Nomor 3 Tahun 2018 tentang Pembentukan dan Tata Kerja Panitia Pemilihan Kecamatan, Panitia Pemungutan suara dan Kelompok