Kalibrasi Instrumen - METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN

G. Kalibrasi Instrumen

Uji validitas yang dilakukan terhadap instrumen ini adalah uji validitas isi (content validity), yaitu menyelaraskan soal yang dibuat sesuai dengan atau mewakili indikator pembelajaran. Dalam pembuatan soal, peneliti menentukan indikator pembelajaran pada kompetensi dasar 4 dengan tujuan mengetahui tindakan yang akan dilakukan jika diberikan permasalahan yang berkaitan dengan sistem reproduksi. Adapun validasi instrumen tes yang peneliti gunakan adalah Koefisien validitas isi Aiken’s V.

Formula dari Aiken’s V adalah :

V = ∑ s / [n(c-1)]

s = r - lo Keterangan:

V = indeks kesepakatan rater

s = skor yang ditetapkan setiap rater dikurangi skor terendah dalam kategori

n = jumlah rater

c = jumlah kategori yang dapat dipilih rater lo = Angka penilaian validitas yang terendah r = Angka yang diberikan oleh penilai

Penilaian instrumen dengan Koefisien validitas Isi Aiken’s V dilakukan pada tiap item soal. Nilai koefisien Aiken’s V berkisar antara 0 – 1. Aiken’s memberikan panduan untuk petunjuk apakah instrumen tersebut layak atau tidak dengan menggunakan indeks V yang terdapat dalam tabel berikut ini:

Tabel 3.4 Indeks Aiken’s V

C Number of Rating Categories ( c )

Or 2 3 4 5 6 7

Raters (n) V P V P V P V p V P V p

2 1.00 0,040 1.00 0.028 1.00 0.020

3 1.00 0.008 1.00 0.005 1.00 0.003

3 1.00 0.037 1.00 0.016 0.92 0.032 0.87 0.046 0.89 0.029

4 1.00 0.004 0.94 0.008 0.95 0.004 0.92 0.006

4 1.00 0,012 0.92 0.020 0.88 0.024 0.85 0.027 0.83 0.029

5 1.00 0,004 0.93 0.006 0.90 0.007 0.88 0.007 0.87 0.007

5 1.00 0.031 0,90 0,025 0.87 0.021 0.80 0.040 0.80 0.032 0.77 0.047

6 0,92 0,010 0.89 0.007 0.88 0.005 0.83 0.010 0.83 0.008

6 1.00 0.016 0,83 0,038 0.78 0.050 0.79 0.029 0.77 0.036 0.75 0.041

7 0,93 0,004 0.86 0.007 0.82 0.010 0.83 0.006 0.81 0.008

7 1.00 0.008 0,86 0,016 0.76 0.045 0.75 0.041 0.74 0.038 0.74 0.036 8 1.00 0.004 0,88 0,007 0.83 0.007 0.81 0.008 0.80 0.007 0.79 0.007 8 0.88 0.035 0,81 0,024 0.75 0.040 0.75 0.030 0.72 0.039 0.71 0.047 9 1.00 0.002 0.89 0,003 0.81 0.007 0.81 0.006 0.78 0.009 0.78 0.007 9 0.89 0.020 0,78 0,032 0.74 0.036 0.72 0.038 0.71 0.39 0.70 0.040 10 1.00 0.001 0,85 0.005 0.80 0.007 0.78 0.008 0.76 0.009 0.75 0.010 10 0.90 0.001 0,75 0.040 0.73 0.032 0.70 0.047 0.70 0.039 0.68 0.048 11 0.91 0.006 0,82 0.007 0.79 0.007 0.77 0.006 0.75 0.010 0.74 0.009

C Number of Rating Categories ( c )

Or 2 3 4 5 6 7

Raters (n) V P V P V P V p V P V p

11 0.82 0.033 0.73 0.048 0.73 0.029 0.70 0.35 0.69 0.038 0.68 0.041 12 0.92 0.003 0.79 0.010 0.78 0.006 0.75 0.009 0.73 0.010 0.74 0.008 12 0.83 0.019 0.75 0,025 0.69 0.046 0.69 0.041 0.68 0.038 0.67 0,049 13 0.92 0.002 0.81 0.005 0.77 0.006 0.75 0.006 0.74 0.007 0.72 0.010 13 0.77 0.046 0.73 0.030 0.69 0.041 0.67 0.048 0.68 0.037 0.67 0.041 14 0.86 0.006 0.79 0.006 0.76 0.005 0.73 0.008 0.73 0.007 0.71 0.009 14 0.79 0.029 0.71 0.035 0.69 0.036 0.68 0.036 0.66 0.050 0.66 0.047 15 0.87 0.004 0.77 0.008 0.73 0.010 0.73 0.006 0.72 0.007 0.71 0.008 15 0.80 0.018 0.70 0.040 0.69 0.032 0.67 0.041 0.65 0.048 0.66 0.041 16 0.88 0.002 0.75 0.010 0.73 0.009 0.72 0.008 0.71 0.007 0.70 0.010 16 0.75 0.038 0.69 0.046 0.67 0.047 0.66 0.046 0.65 0.046 0.65 0.046 17 0.82 0.006 0.76 0.005 0.73 0.008 0.71 0.010 0.71 0.007 0.70 0.009 17 0.76 0.025 0.71 0.026 0.67 0.041 0.66 0.036 0.65 0.044 0.65 0.039 18 0.83 0.004 0.75 0.006 0.72 0.007 0.71 0.007 0.70 0.007 0.69 0.010 18 0.72 0.048 0.69 0.030 0.67 0.036 0.65 0.040 0.64 0.042 0.64 0.044 19 0.79 0.010 0.74 0.008 0.72 0.006 0.70 0.009 0.70 0.007 0.68 0.009 19 0.74 0.032 0.68 0.033 0.65 0.050 0.64 0.044 0.64 0.040 0.63 0.048 20 0.80 0.006 0.72 0.009 0.70 0.010 0.69 0.010 0.68 0.010 0.68 0.008 20 0.75 0.021 0.68 0.037 0.65 0.044 0.64 0.048 0.64 0.038 0.63 0.041 21 0.81 0.004 0.74 0.005 0.70 0.010 0.69 0.008 0.68 0.010 0.68 0.009 21 0.71 0.039 0.67 0.041 0.65 0.039 0.64 0.038 0.63 0.048 0.63 0.045 22 0.77 0.008 0.73 0.006 0.70 0.008 0.68 0.009 0.67 0.010 0.67 0.008 22 0.73 0.026 0.66 0.44 0.65 0.035 0.64 0.041 0.63 0.046 0.62 0.049 23 0.78 0.005 0.72 0.007 0.70 0.007 0.68 0.007 0.67 0.010 0.67 0.009 23 0.70 0.047 0.65 0.048 0.64 0.046 0.63 0.045 0.63 0.044 0.62 0.043 24 0.79 0.003 0.71 0.008 0.69 0.006 0.68 0.008 0.67 0.010 0.66 0.010 24 0.71 0.032 0.67 0.030 0.64 0.041 0.64 0.035 0.62 0.041 0.62 0.046 25 0.76 0.007 0.70 0.009 0.68 0.010 0.67 0.009 0.66 0.009 0.66 0.009 25 0.72 0.022 0.66 0.033 0.64 0.037 0.63 0.038 0.62 0.039 0.61 0.049

Kolom pertama tabel menunjukkan jumlah rater. Jumlah rater yang berbeda, nilai minimum indeks V juga berbeda. Semakin banyak rater, semakin kecil nilai V yang disyaratkan. Tabel di atas menunjukkan bahwa sebenarnya secara teoritis batas minimal untuk menetapkan jumlah rater adalah dua orang. Meskipun demikian, untuk dapat diterima suatu item harus

memperoleh nilai V yang sempurna yaitu 1. Sedangkan, number of category menunjukkan pilihan skala ketika memberikan penilaian ke rater.

Uji kevalidan hasil instrumen tes melalui aspek konten isi, materi, konstruk dan bahasa oleh dosen Tadris Biologi dan guru mata pelajaran biologi. Dengan tujuan instrumen yang telah dibuat layak untuk digunakan dalam penelitian. Hasil penilaian oleh para ahli diberikan dengan ketentuan sebagai berikut:

Tabel 3.5 Ketentuan Pemberian Skor

Penilaian Keterangan

1 Tidak Layak

2 Cukup Layak

3 Layak

4 Sangat Layak

Validasi digunakan sebagai dasar melakukan revisi dan penyempurnaan instrumen tes. Setelah dilakukan perhitungan dan pengkategorian dengan rater 6 dan taraf kesalahan yaitu 0,050 diperoleh nilai dengan kategori tinggi yaitu 0,83 sedangkan nilai dengan kategori rendah yaitu 0,61. Namun, secara keseluruhan nilai rata-rata dari hasil pengujian validasi untuk ke 6 soal yang diberikan adalah valid dengan nilai content validity indeks nya adalah 0,78. Hasil perhitungan validasi dapat dilihat pada tabel 3.6 berikut.

Tabel 3.6 Hasil Uji Aiken’s Instrumen Kemampuan Berpikir Kritis

Butir Penilai ∑ S n(c-1) V Keterangan

I II III IV V VI

Butir 1 2 4 4 3 3 4 14 18 0,777778 SEDANG

Butir 2 2 4 3 4 4 4 15 18 0,833333 TINGGI

Butir 3 1 3 4 3 3 3 11 18 0,611111 RENDAH

Butir Penilai ∑ S n(c-1) V Keterangan I II III IV V VI

Butir 4 2 3 4 4 3 4 14 18 0,777778 SEDANG

Butir 5 3 4 4 3 4 4 16 18 0,888889 TINGGI

Butir 6 2 4 3 4 4 4 15 18 0,833333 TINGGI

Butir 7 2 4 3 3 4 4 14 18 0,777778 SEDANG

Butir 8 3 4 3 3 3 3 13 18 0,722222 SEDANG

Butir 9 2 4 4 3 4 4 15 18 0,833333 TINGGI

Butir 10 3 3 4 3 3 4 14 18 0,777778 SEDANG

Butir 11 3 4 4 3 4 3 15 18 0,833333 TINGGI

Butir 12 2 3 4 4 4 3 14 18 0,777778 SEDANG

Butir 13 3 3 4 4 3 4 15 18 0,833333 TINGGI

Butir 14 2 3 4 4 4 4 15 18 0,833333 TINGGI

Butir 15 2 3 4 3 3 3 12 18 0,666667 RENDAH

Butir 1-15 34 53 56 51 53 55 212 270 0,785185 TINGGI

Aspek yang terkandung dalam butir tersebut adalah aspek isi, konstruksi dan bahasa. Aspek isi terdapat pada butir 1 sampai dengan butir 8, pada aspek isi terdapat kategori rendah yaitu pada nomor butir 3, kategori sedang pada nomor butir 1, 4, 7 dan 8. Dan kategori tinggi pada nomor butir 2, 5 dan 6. Aspek konstruksi terdapat pada nomor butir 9 dengan nilai valid 0,83 dan memiliki kategori tinggi. Sedangkan, aspek bahasa pada nomor butir 10 sampai dengan 15 dengan kategori rendah 0,67, terdapat 2 kategori sedang yaitu pada nomor 10 dan 12. Kategori tinggi pada nomor butir 11, 13 dan 14.

2. Uji Validasi

Validitas merupakan salah satu syarat dalam suatu alat evaluasi ataupun instrumen. Suatu Teknik evaluasi dikatakan mempunyai validitas yang tinggi (disebut valid) jika teknik evaluasi atau tes itu dapat mengukur apa yang sebenarnya akan diukur. Hal ini berarti, bahwa valid tidaknya suatu alat ukur tergantung kepada mampu tidaknya alat tersebut mencapai tujuan pengukuran yang dikehendaki. Perhitungan validasi menggunakan MS Exel yaitu mengkorelasikan skor tiap butir dengan skor total yang merupakan jumlah tiap skor butir.⁶ Korelasi yang digunakan adalah korelasi Pearson Moment. Berdasarkan data yang telah terkumpul dari 26 responden yang ditunjukan dalam tabel 3.7 berikut:

Tabel 3.7 Data Hasil Uji Coba Instrumen

Responden P1 P2 P3 P4 P5 P6 Total

R21 3 2 3 2 2 3 15

R22 ³ ³ ² ² ² ³ 15

R23 ² ³ ³ ² ² ³ 15

R24 ³ ³ ² ² ² ³ 15

R25 ³ ² ³ ³ ² ³ 16

R26 ³ ² ² ³ ³ ³ 16

R Hitung 0,858564 0,73667 0,581593 0,760907 0,658228 0,807877 R Tabel 0,496 0,496 0,496 0,496 0,496 0,496 Keterangan Valid Valid Valid Valid Valid Valid

Berdasarkan tabel 3.7 dapat diketahui bahwa korelasi antara skor butir 1 dengan skor total adalah 0,858. Antara butir 2 dengan skor total 0,736, korelasi antara skor butir 3 dengan skor total adalah 0,581, korelasi antara skor butir 4 dengan skor total adalah 0,760, antara skor butir 5 dengan skor total adalah 0,658 dan korelasi anatara skor butir 6 dengan skor total adalah 0,807. Berdasarkan hasil dari 26 responden yang seluruh item lebih besar dari r-tabel 0,496 maka butir item dalam instrumen dinyatakan valid.

3. Uji Reliabilitas

Pengujian reliabilitas dilakukan dengan cara mencobakan instrumen, kemudian data yang diperoleh dianalisis dengan teknik tertentu.

Hasil dari analisis tersebut dapat digunakan sebagai prediksi reliabilitas instrumen. Uji reliabilitas pada penelitian ini dilakukan dengan teknik Spearman Brown (Split half). Berikut rumus reliabilitas dengan teknik Spearman Brown.⁷

Keterangan:

ri = reliabilitas internal seluruh instrumen rb = korelasi product moment

Penentuan kriteria reliabilitas instrumen ini berdasarkan tabel 3.6 berikut.

7 Sugiyono, Op., cit. h.131

Tabel 3.8 Kategori Reliabilitas⁸

N Harga Rho pada taraf signifikansi

5% 1%

Teknik dua belah instrumen yaitu dengan satu instrumen dikerjakan satu kali oleh sejumlah sampel percobaan suatu penelitian, kemudian hasil pengerjaan dianalisis dengan dua belah yaitu dengan ganjil dan genap pada soal. Setelah didapatkan nilai kemudian diinterpretasikan terhadap tabel nilai r pada tabel 3.8 berikut.⁹

Tabel 3.8 Kriteria Reliabilitas.

Koefisien KorelasiKriteria Reliabilitas 0,00 – 0,20 Sangat rendah

0,20 – 0,40 Rendah

0,40 – 0,70 Cukup

0,70 – 0,90 Tinggi

0,90 – 1,00 Sangat tinggi

Berdasarkan Tabel 3.8 merupakan kriteria reliabilitas dari koefisien korelasi dari 0,00 sampai 1,00, semakin tinggi angka koefisien korelasi maka kriteria reliabilitas juga semakin tinggi. Hasil koefisien korelasi

8 Anas Sudijono, Pengantar Statistik Pendidikan, (Jakarta: Rajawali, 2015), h.403.

9 Ahmad Sofyan, Tonih Feronika, dan Burhanuddin Milama, Evaluasi Pembelajaran IPA Berbasis Kompetensi, (Jakarta : UIN Jakarta, 2006), h. 105.

antara dua belah instrumen dengan r-tabel 0,496 menunjukan bahwa semua soal adalah reliabel dengan kategori cukup, sehingga hasil dari pengukuran dengan soal uraian dapat dipercaya dan konsisten.

4. Uji Tingkat Kesukaran

Uji tingkat kesukaran digunakan untuk memperoleh kualitas soal yang baik, yaitu adanya keseimbangan dari tingkat kesulitan soal.

Keseimbangan yang dimaksud adalah terdapat soal-soal dengan berbagai tingkat kesukaran yakni mudah, sedang dan sulit. Dalam hal ini, tingkat kesukaran soal dipandang dari kemampuan dan kesanggupan peserta didik dalam menjawab, bukan dilihat dari sudut guru sebagai pembuat soal.

Untuk mengetahui tingkat kesukaran soal digunakan rumus sebagai berikut.¹⁰

Hasil dari perhitungan dengan rumus tersebut, kemudian diklasifikasikan dengan tingkat kesukaran soal pada tabel berikut.

Tabel 3.8 Kategori Indeks Kesukaran

Indeks Tingkat Kesukaran Kriteria

0,00 – 0,30 Sukar

0,31 – 0,70 Sedang

0,71 – 1,00 Mudah

Berdasarkan tabel 3.8 hasil analisis dalam kategori indeks kesukaran, bahwa dari 6 butir soal instrumen tersebut termasuk kedalam jenis soal yang sedang. Sehingga, instrumen tersebut layak digunakan.

5. Daya Pembeda

Daya pembeda digunakan untuk mengetahui intensitas kemampuan butir soal dalam menunjukkan peserta didik yang menguasai materi dan peserta didik yang belum menguasai materi yang diujikan. Angka daya

10 Mik Salmina dan fadlillah Adyansyah, Analisis Kualitas Soal Ujian Matematika Semester Genap Kelas XI SMA INSHAFUDDIN Kota Banda Aceh, ISSN 2355-0074, Vol. 8: (2).

h.43.

pembeda atau indeks diskriminasi berkisar dari 0,00 – 1,00. Perhitungan daya pembeda dapat menggunakan rumus sebagai berikut.¹¹

Keterangan:

DB = Daya beda Soal

= Skor rata-rata peserta didik berkemampuan tinggi

= Skor rata-rata peserta didik berkemampuan rendah

= Skor maksimum yang ditetapkan

Hasil dari perhitungan dengan rumus tersebut, kemudian diklasifikasikan dengan kriteria indeks daya pembeda dengan klasifikasi sebagai berikut.

Tabel 3.9 Kategori Indeks Daya Beda

Indeks Daya Pembeda Kriteria Nomor Soal

0,71 – 1,00 Sangat baik -

0,41 – 0,70 Baik -

0,021 – 0,40 Cukup 1,6

0,00 – 0,20 Buruk 2,3,4,5

Negatif Sangat Buruk -

Namun, jika daya pembeda menghasilkan nilai negatif maka butir soal tersebut sebaiknya diganti atau dihilangkan.

Berdasarkan tabel 3.9 hasil uji daya pembeda yang telah dilakukan diperoleh hasil bahwa dari 6 soal, sebanyak 4 soal dengan kriteria buruk yaitu pada nomor soal 2, 3, 4, dan 5. Terdapat 2 soal dengan kriteria cukup yaitu pada nomor soal 1 dan 6.

Dalam dokumen ANALISIS KEMAMPUAN BERPIKIR KRITIS PESERTA DIDIK PADA KONSEP SISTEM REPRODUKSI TINGKAT SMA (Halaman 44-53)