• Tidak ada hasil yang ditemukan

E. Instrumen Penelitian

1. Uji Validitas

Validitas adalah suatu ukuran yang menunjukkan tingkat kevalidan atau kesahihan suatu instrumen. Sebuah instrumen dikatakan valid apabila instrumen tersebut mengukur apa yang hendak diukur, artinya instrumen tersebut dapat mengungkap data variabel yang diteliti secara tepat. (Arikunto. S, 2010, hlm.211 & Sugiyono, 2011, hlm.173). Untuk melihat tingkat validitas suatu tes dalam penelitian ini, maka instrumen tes diujikan dengan dua cara:

a. Pengujian validitas isi (content validity)

Validitas isi adalah validitas yang mengecek kecocokan diantara butir-butir tes yang dibuat dengan indikator, materi atau tujuan pembelajaran yang telah ditetapkan (Sugiyono, 2011, hlm.183). Validitas isi hanya dapat ditentukan berdasarkan judgement para ahli, seperti yang dikemukakan oleh Fraenkel, J.R (2012, hlm.125) bahwa

“…a common way to do this is to have someone look at the content and format of the instrument and judge whether or not it is appropriate. … someone who knows enough about what is to be measured to be a competent judge.”

Sehingga dalam penelitian ini, pengujian validitas isi dilakukan oleh tim judgement experts yang terdiri dari tiga orang dosen ahli dan satu orang guru fisika SMP yaitu Achmad Samsudin, M.Pd, Muhamad Gina Nugraha, S.Pd, M.Pd, Dr. Andhy Setiawan, S.Pd, M.Si, dan

pendapatnya untuk mengecek kesesuaian antara soal dengan konsep, kesesuaian soal dengan kerangka TIMSS dan indikator serta aspek

penyajian soal. Setelah judgement experts melakukan pengecekan

instrumen, maka selanjutnya judgement experts memberikan penilaian

terhadap setiap butir soal dengan skala penilaian berupa skala rating politomi dengan rentang nilai 1-5, kemudian peneliti melakukan perhitungan validitas isi menggunakan indeks V dari Aiken dengan alasan validitas ini hanya digunakan untuk butir yang penilaiannya menggunakan skala politomi. Adapun rumus indeks V adalah: (Ridho, A, 2013, hlm.18; Aiken, 1980, hlm.956)

Dengan: V = validitas ; N= banyaknya ahli atau panelis ; c= skor kategori tertinggi (5); = r – l ; r = nilai rating yang diberikan ahli ; l = skor kategori terendah (1).

Untuk menginterpretasi nilai validitas isi yang diperoleh dari perhitungan di atas, maka digunakan pengklasifikasian validitas seperti yang ditunjukkan pada Tabel kriteria validitas di bawah ini:

Tabel 3.2. Kriteria Validitas Ahli

Hasil Validitas Kriteria validitas

0,80 < V ≤ 1,00 Sangat tinggi

0,60 < V≤ 0,80 Tinggi

0,40 < V≤ 0,60 Cukup

0,20 < V≤ 0,40 Rendah

0,00 < V≤ 0,20 Sangat rendah

Berikut ini akan disajikan hasil rekapitulasi validitas isi berdasarkan hasil judgement ahli.

Tabel 3.3 Rekapitulasi Validitas Ahli

Kriteria Validitas Nomor Soal Jumlah Soal

Sangat tinggi 1,2,3,4,7,8,9,10,12,13,14,17,20,21,22,25,26, 28,29,30,31,32 22 Tinggi 5,6,11,15,16,19,24,27 8 Sedang 18 1 Rendah 23 1 Sangat rendah - 0

Tidak Valid - 0 Berdasarkan Tabel 3.3, diperoleh informasi bahwa dari 32 soal pilihan

ganda dan constructed response yang dijudgement didapatkan 68,75%

memiliki kategori sangat tinggi, 25% dengan kategori tinggi, 3,125 % dengan kategori sedang dan 3,125% dengan kategori rendah. Dikarenakan soal nomor 23 menunjukkan kategori rendah maka peneliti mengganti soal tersebut.

b. Pengujian validitas empiris

Setelah dilakukan pengujian validitas isi oleh tim ahli, maka instrumen tersebut di uji cobakan kepada siswa kelas IX di SMP Negeri 12 Bandung dengan jumlah sampel uji coba 40 orang. Setelah di dapatkan hasil uji coba, langkah berikutnya yaitu pengujian validitas

butir soal yang dilakukan dengan bantuan Microsoft Excel yaitu

dengan teknik korelasi product moment dengan angka kasar yang

dikemukakan Pearson sebagai berikut :

dengan N = jumlah siswa;

= koefisien korelasi antara variabel X dan variabel Y = skor tiap butir soal; = skor total tiap butir soal

Dasar mengambil keputusan yaitu jika rhitung > r tabel maka item

pertanyaan berkorelasi signifikan terhadap skor total sehingga

dinyatakan valid, namun jika rhitung < r tabel maka item pertanyaan tidak berkorelasi signifikan terhadap skor total sehingga dinyatakan tidak valid. Nilai koefisien korelasi Pearson (rtabel) diambil dengan taraf signifikansi α sebesar 0,05 dan n merupakan banyaknya data yang

sesuai. Tabel Pearson dapat dilihat di lampiran 3. Untuk

menginterpretasikan nilai koefisien korelasi yang diperoleh dari perhitungan diatas, digunakan kriteria validitas butir soal yang yang

dikemukakan oleh Guilford seperti yang ditunjukkan pada Tabel di bawah ini (Arikunto S, 2009, hlm.75):

Tabel 3.4. Kriteria Validitas

Koefisien Korelasi Kriteria validitas

0,80 < r ≤ 1,00 Sangat tinggi

0,60 < r ≤ 0,80 Tinggi

0,40 < r ≤ 0,60 Cukup

0,20 < r ≤ 0,40 Rendah

0,00 < r ≤ 0,20 Sangat rendah

Berikut ini akan disajikan hasil rekapitulasi validitas butir soal pilihan ganda berdasarkan hasil uji coba instrument.

Tabel 3.5 Rekapitulasi Validitas Soal Pilihan Ganda

Kriteria Validitas Nomor Soal Jumlah Soal

Sangat tinggi - 0 Tinggi - 0 Cukup 5,8,9,10,13,16,19,20,22,28 10 Rendah 1,2,15,25,26,27 6 Sangat rendah 18,30 2 Tidak Valid 17,21 2

Berdasarkan Tabel 3.4, didapatkan informasi bahwa dari 20 soal pilihan ganda yang diujicobakan diperoleh 30% dari soal total memiliki kategori rendah, 50% memiliki kategori sedang, 10% memiliki kategori sangat rendah dan 10% memiliki kategori tidak

valid. Sedangkan untuk hasil rekapitulasi validitas butir soal

constructed respone disajikan pada tabel dibawah ini.

Tabel 3.6 Rekapitulasi Validitas Soal Constructed Response

Kriteria Validitas Nomor Soal Jumlah Soal

Sangat tinggi - 0 Tinggi 1 1 Sedang 4,14,29,31,32 5 Rendah 3,6,7,11,12,24 6 Sangat rendah - 0 Tidak Valid - 0

Berdasarkan Tabel 3.6, diperoleh informasi bahwa dari 12 soal constructed response yang diujicobakan didapatkan 50% memiliki kategori rendah, 42% dengan kategori sedang dan 8,3% dengan kategori tinggi.

Untuk menentukan butir soal mana yang digunakan maka peneliti menggunakan pertimbangan validitas uji coba dan validitas ahli. Hal ini dikarenakan ketika uji instrumen berlangsung, sampel uji coba tidak mengerjakan soal dengan serius dan banyak yang saling mencontek, sehingga penentuan butir soal tidak mungkin sepenuhnya

didasarkan pada hasil uji coba. Oleh karena itu peneliti

mempercayakan kredibilitas tim ahli sebagai bahan pertimbangan untuk memutuskan penentuan butir soal. Soal yang memiliki kriteria rendah menurut validitas uji coba, terlebih dahulu dicocokkan dengan hasil validitas ahli dengan tujuan apakah memang benar soal tersebut memiliki kriteria rendah berdasarkan kedua hasil validitas. Jika hasil validitas ahli dan validitas uji coba sama-sama menunjukkan kriteria rendah maka soal tersebut direvisi atau bahkan diganti. Namun sebaliknya jika validitas ahli menunjukkan hasil yang berkebalikan dengan validitas uji coba maka soal tersebut tetap digunakan.

2. Reliabilitas

Reliabilitas berhubungan dengan masalah kepercayaan. Suatu

instrumen dikatakan reliabel apabila instrumen yang digunakan beberapa

kali untuk mengukur obyek yang sama akan menghasilkan data yang sama, meskipun oleh orang, waktu dan tempat yang berbeda pula (Arikunto S, 2009, hlm.86 & Sugiyono, 2011, hlm.173). Untuk pengujian

reliabilitas instrumen, peneliti melakukan teknik internal consistency,

maksudnya ialah peneliti mengujicobakan instrumen hanya sekali saja, kemudian data yang diperoleh dari hasil uji coba di analisis. Untuk soal pilihan ganda, teknik analisis yang digunakan ialah teknik Belah Dua

(Split-Half Technique) dengan bantuan Microsoft excel, yaitu dilakukan

dengan cara membagi tes menjadi dua bagian yang relatif sama, sehingga testi mempunyai dua skor, yaitu skor belahan pertama (awal / soal nomor ganjil) dan skor belahan kedua (akhir/ soal nomor genap). Koefisien

reliabilitas belahan tes dapat dihitung dengan menggunakan rumus korelasi angka kasar Pearson sebagai berikut:

dengan: n = banyak subjek ; x1 = kelompok data belahan pertama x2 = kelompok data belahan kedua

Untuk mengetahui koefisien reliabilitas alat evaluasi keseluruhan

menggunakan rumus Spearman Brown yaitu:

Dengan :

merupakan korelasi antara skor-skor setiap belahan tes merupakan koefisien reliabilitas yang sudah disesuaikan.

Sedangkan untuk soal constructed response menggunakan teknik

analisis alpha cronbach seperti yang dikemukakan oleh Fraenkel, J.R

(2012, hlm.158) bahwa “...alpha cronbach to be used in calculating the reliability of items that are not scored right versus wrong, as in some

essay tests where more than one answer is possible”. Adapun rumus perhitungannya adalah (Arikunto S, 2010, hlm.239)

=

Dengan : ; k = banyaknya butir pertanyaan

=jumlah varians butir; =varians total

Kriteria suatu instrumen dikatakan reliable apabila koefisien

reliabilitasnya lebih besar dari r tabel. Untuk menginterpretasikan derajat reabilitas instrumen dapat menggunakan tolak ukur yang dikemukakan oleh Guilford seperti yang ditunjukkan pada tabel kriteria reliabilitas di bawah ini:

Koefisien Korelasi Kriteria reliabilitas 0,80 < r ≤ 1,00 Sangat tinggi 0,60 < r ≤ 0,80 Tinggi 0,40 < r ≤ 0,60 Cukup 0,20 < r ≤ 0,40 Rendah 0,00 < r ≤ 0,20 Sangat rendah

Berdasarkan perhitungan yang dilakukan dengan menggunakan rumus spearman brown pada soal pilihan ganda dan dengan rumus alpha cronbach pada soal constructed response maka diperoleh masing-masing nilai reliabilitas yaitu 0,53 dan 0,55. Kedua nilai tersebut berada pada kategori cukup. Sehingga dapat disimpulkan bahwa instrumen tes yang digunakan pada penelitian ini memiliki tingkat keajegan yang cukup.

3.Taraf Kesukaran

Soal yang baik adalah soal yang tidak terlalu mudah atau terlalu sulit. Indeks kesukaran adalah bilangan yang menunjukkan sukar atau mudahnya suatu soal. Besarnya indeks kesukaran antara 0,00 (sukar) sampai 1,00 (mudah). Rumus mencari indeks kesukaran adalah :

keterangan :

P : indeks kesukaran

B : banyaknya siswa yang menjawab soal itu dengan betul JS : jumlah seluruh siswa peserta tes

Tabel 3.8. Klasifikasi Indeks Kesukaran

Indeks kesukaran Kriteria

0,00 – 0,30 Sukar

0,3 1– 0,70 Sedang

0,71 – 1,00 Mudah

(Arikunto.S, 2009, hlm..207-210) Tabel dibawah menyajikan hasil taraf kesukaran tiap butir soal setelah dilakukan uji coba instrumen

Tabel 3.9 Rekapitulasi Tingkat Kesukaran

Kriteria Nomor Soal Jumlah Soal

Sukar 17, 21, 23, 24, 25, 31, 32 7

Mudah 1,2,3,5,6,7,8,9,10,11,12,13,16,19,27 15

Berdasarkan tabel diatas diperoleh informasi bahwa dari 32 soal yang diujicobakan maka 21,875% berada pada kategori sukar, 31,25 % berada pada kategori sedang dan 46,875% berada pada kategori mudah.

4. Daya Pembeda

Daya pembeda soal adalah kemampuan suatu soal untuk membedakan antara siswa yang pandai dengan siswa yang tidak pandai. Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi. Indeks ini berkisar antara 0,00 sampai 1,00. Berbeda dengan tingkat kesukaran, pada indeks diskriminasi terdapat tanda negatif. Rumus untuk menentukan daya pembeda adalah :

Keterangan : D : daya pembeda

BA : banyaknya peserta kelompok atas yang menjawab soal tersebut dengan benar

BB : banyaknya peserta kelompok bawah yang menjawab soal tersebut dengan benar

JA : banyaknya peserta kelompok atas JB : banyaknya peserta kelompok bawah

PA : proporsi peserta kelompok atas yang menjawab benar PB : proporsi peserta kelompok bawah yang menjawab benar

Tabel 3.10. Klasifikasi Daya Pembeda

Daya pembeda Kriteria

0,71 – 1,00 Baik sekali

0,41 – 0,70 Baik

0,21 – 0,40 Cukup

0,00 – 0,20 Jelek

(Arikunto.S, 2009, hlm. 211-218) Berikut ini akan disajikan hasil rekapitulasi daya pembeda butir soal

pilihan ganda dan constructed response berdasarkan hasil uji coba

instrument.

Tabel 3.11 Rekapitulasi Daya Pembeda Soal Pilihan Ganda

Baik sekali 4,23 2 Baik 14, 22, 29 3 Cukup 6, 9,10, 11, 12, 15, 19, 20, 25, 26, 28, 32 12 Jelek 1, 2, 3, 5, 7, 8, 13, 16, 17, 18, 21, 24, 27, 30, 31 15

Berdasarkan Tabel 3.11, didapatkan informasi bahwa dari 32 soal yang diujicobakan diperoleh 6,25% dari soal total memiliki kriteria baik sekali, 9,375% memiliki kriteria baik, 37,5% memiliki kriteria cukup dan 46,8% memiliki kriteria jelek. Banyaknya soal dengan daya pembeda jelek dikarenakan saat uji coba instrumen banyak siswa yang saling bekerja sama dan menjawab secara asal. Secara keseluruhan hasil uji coba instrumen dipaparkan pada tabel di bawah ini.

Tabel. 3.12 Hasil Pengembangan Instrumen N

o

Validitas Reliabilitas Daya Pembeda Tingkat Kesukaran Validitas Ahli

Keterangan

Nilai Kategori Nilai Kategori Nilai Kategori Nilai Kategori Nilai Kategori

1 0.29 Rendah 0.53 Sedang 0 Jelek 0.95 Mudah 0.958 Sgt Tinggi Dipakai

2 0.29 Rendah 0.53 Sedang 0.1 Jelek 0.95 Mudah 0.979 Sgt Tinggi Dipakai

3 0.35 Rendah 0.55 Sedang 0.2 Jelek 0.95 Mudah 0.896 Sgt Tinggi Dipakai

4 0.51 Sedang 0.55 Sedang 0.9 Sgt Baik 0.675 Sedang 0.896 Sgt Tinggi Dipakai

5 0.57 Sedang 0.53 Sedang 0.1 Jelek 0.95 Mudah 0.771 Tinggi Dipakai

6 0.33 Rendah 0.55 Sedang 0.35 Cukup 0.8125 Mudah 0.667 Tinggi Dipakai

7 0.22 Rendah 0.55 Sedang 0.05 Jelek 0.9875 Mudah 0.938 Sgt Tinggi Dipakai

8 0.57 Sedang 0.53 Sedang 0.2 Jelek 0.9 Mudah 0.958 Sgt Tinggi Dipakai

9 0.52 Sedang 0.53 Sedang 0.25 Cukup 0.875 Mudah 0.938 Sgt Tinggi Dipakai

10 0.46 Sedang 0.53 Sedang 0.25 Cukup 0.875 Mudah 0.938 Sgt Tinggi Dipakai

11 0.34 Rendah 0.55 Sedang 0.35 Cukup 0.9125 Mudah 0.792 Tinggi Dipakai

12 0.36 Rendah 0.55 Sedang 0.4 Cukup 0.85 Mudah 0.833 Sgt Tinggi Dipakai

13 0.49 Sedang 0.53 Sedang 0.15 Jelek 0.925 Mudah 1 Sgt Tinggi Dipakai

14 0.41 Sedang 0.55 Sedang 0.6 Baik 0.35 Sedang 0.917 Sgt Tinggi Dipakai

15 0.36 Rendah 0.53 Sedang 0.3 Cukup 0.7 Sedang 0.708 Tinggi Dipakai

16 0.49 Sedang 0.53 Sedang 0.15 Jelek 0.925 Mudah 0.708 Tinggi Dipakai

17 0.17 Sgt

Rendah 0.53 Sedang 0.05 Jelek 0.125 Sukar 0.938 Sgt Tinggi Dipakai

18 0.08 Sangat

Rendah 0.53 Sedang 0.1 Jelek 0.6 Sedang 0.563 Sedang Dipakai

19 0.55 Sedang 0.53 Sedang 0.25 Cukup 0.875 Mudah 0.729 Tinggi Dipakai

20 0.5 Sedang 0.53 Sedang 0.3 Cukup 0.7 Sedang 0.938 Sgt Tinggi Dipakai

21 0.13 Sgt

Rendah 0.53 Sedang -0.15

Sangat

Jelek 0.225 Sukar 0.958 Sgt Tinggi Dipakai

22 0.5 Sedang 0.53 Sedang 0.5 Baik 0.6 Sedang 0.979 Sgt Tinggi Dipakai

23 0.63 Tinggi 0.55 Sedang 0.95 Sgt Baik 0.2625 Sukar 0.396 Rendah Diperbaiki

24 0.23 Rendah 0.55 Sedang 0.15 Jelek 0.1625 Sukar 0.771 Tinggi Dipakai

25 0.37 Rendah 0.53 Sedang 0.3 Cukup 0.2 Sukar 0.938 Sgt Tinggi Dipakai

27 0.21 Rendah 0.53 Sedang -0.05 Sangat

Jelek 0.775 Mudah 0.667 Tinggi Dipakai

28 0.46 Sedang 0.53 Sedang 0.35 Cukup 0.625 Sedang 0.896 Sgt Tinggi Dipakai

29 0.53 Sedang 0.55 Sedang 0.6 Baik 0.475 Sedang 0.875 Sgt Tinggi Dipakai

30 0.15 Sangat

Rendah 0.53 Sedang 0.15 Jelek 0.325 Sedang 0.854 Sgt Tinggi Dipakai

31 0.47 Sedang 0.55 Sedang 0.15 Jelek 0.0375 Sukar 0.938 Sgt Tinggi Dipakai

32 0.57 Sedang 0.55 Sedang 0.35 Cukup 0.1125 Sukar 1 Sgt Tinggi Dipakai

Dokumen terkait