B. Analisis Butir Soal
3. Validitas Item
Validitas item adalah ketepatan mengukur yang dimiliki oleh sebutir item (yang merupakan bagian yang tak terpisah dari tes sebagai suatu totalitas), dalam mengukur apa yang seharusnya diukur lewat butir item tersebut.27 Untuk menghitung validitas item dapat menggunakan rumus Ypbi sebagai berikut:
ππππ =π΄πβπ΄π
πΊπ π π
27 Ibid., 182.
Keterangan:
Ypbi = Koefisien korelasi biserial
Mp = Rerata skor dari subjek yang menjawab betul bagi yang dicari validitasnya
Mt = Rerata skor total
St = Standar deviasi dari skor total proporsi p = Proporsi peserta didik yang menjawab benar
(π =banyaknya peserta didik yang benar jumla h seluruh peserta didik )
q = Proporsi peserta didik yang menjawab salah (q = 1 - p)28
Indeks korelasi point biserial (Ypbi) yang diperoleh dari hasil perhitungan dikonsultasikan dengan r tabel pada taraf signifikansi 5%
sesuai jumlah peserta didik yang diteliti. Apabila Ypbi > r tabel maka butir soal tersebut valid. Rumus yang akan digunakan untuk menghitung validitas adalah (Ypbi).
b. Reliabilitas
Reliabilitas adalah sama dengan konsistensi atau keajegan. Suatu instrumen evaluasi dikatakan mempunyai reliabilitas tinggi apabila tes yang dibuat mempunyai hasil yang konsisten dalam mengukur yang hendak diukur.29 Ada tiga metode untuk mengetahui besarnya reliabilitas:
1. Metode bentuk paralel (equivalent)
Metode bentuk paralel yaitu metode dua bentuk tes yang memiliki kesamaan tujuan, tingkat kesukaran, dan susunan, tetapi butir-butir soalnya berbeda.
2. Metode tes ulang (tes-retest method)
Metode tes ulang yaitu metode satu bentuk tes yang diujikan dua kali pada kelompok peserta didik yang sama namun pada kesempatan yang berbeda.
3. Metode belah dua (split-half metod)
Metode tes belah dua yaitu metode satu bentuk tes dan hanya diujikan satu kali pada kelompok peserta didik yang sama dan pada
28 Suharsimi Arikunto, Dasar-dasar Evaluasi Pendidikan, 93.
29 Sukardi, Evaluasi Pendidikan Prinsip dan Operasionalnya (Jakarta: Bumi Aksara, 2011), 29.
kesempatan yang sama. Kelompok peserta didik tersebut dibagi menjadi dua kelompok.30
Reliabilitas tes untuk soal bentuk pilihan ganda dapat dihitung dengan rumus K-R 20 yaitu:
r
11= (
ππβ1
)(
π2ββππ π 2
)
Keterangan:
r11 = Reliabilitas tes secara keseluruhan
p = Proporsi subjek yang menjawab item dengan benar q = Proporsi subjek yang menjawab item dengan salah
β pq = Jumlah hasil perkalian antara p dan q n = Banyaknya item
S = Standar deviasi dari tes31
Berbeda dengan soal berbentuk objektif, untuk soal yang berbentuk uraian dalam mencari reliabilitas tes dapat dilakukan dengan menggunakan rumus alpha yaitu:
r
11= (
ππβ1
)(1 β
βππ2ππ‘2
)
Keterangan:
r11 = Reliabilitas tes secara keseluruhan
β ππ‘2 = Jumlah varians skor tiap item ππ‘2 = Varians total
n = Banyaknya item32
Apabila r11 sama dengan atau lebih besar dari 0,70 maka tes hasil belajar yang sedang diujikan dinyatakan reliabel. Tapi jika r11 kurang dari 0,70 maka tes hasil belajara dinyatakan tidak reliabel.33
30 Suharsimi Arikunto, Dasar-dasar Evaluasi Pendidikan, 105β107.
31 Ibid., 115.
32 Ibid., 122.
Metode yang digunakan untuk menghitung besaran reliabilitas pada tes objektif atau tes pilihan ganda dalam penelitian ini yaitu metode belah dua (split-half metod) dengan rumus alpha.
b. Tingkat Kesukaran
Perhitungan tingkat kesukaran soal yaitu pengukuran seberapa besar angka yang menunjukkan proporsi peserta tes yang menjawab benar dalam satu soal yang dilakukan dengan metode tes objektif.34 Jika suatu soal memiliki tingkat kesukaran seimbang (proposional), maka dapat dikatakan bahwa soal tersebut baik. Suatu soal tes hendaknya tidak terlalu sukar dan tidak pula terlalu mudah. Untuk mencari tingkat kesukaran dapat menggunakan rumus sebagai berikut:
P = π©
π±πΊ
Keterangan:
P = Indeks kesukaran
B = Banyaknya peserta didik menjawab butir soal dengan benar JS = Jumlah seluruh peserta didik yang ikut tes
Besarnya Tingkat Kesukaran Soal (TK) kurang dari 0,30 maka kategorinya sulit, besarnya TK 0,31-0,70 maka kategorinya sedang dan besarnya TK lebih dari 0,71 dapat dikategorikan mudah.35
33 Anas Sudijono, Pengantar Evaluasi Pendidikan, 209.
34 Sukardi, Evaluasi Pendidikan Prinsip dan Operasionalnya, 136.
35 Kusaeri dan Suprananto, Pengukuran dan Penilaian Pendidikan, 175.
c. Daya pembeda
Perhitungan daya pembeda adalah pengukuran sejauh mana suatu butir soal mampu membedakan peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum/kurang menguasai kompetensi berdasarkan kriteria tertentu.36 Semakin tinggi koefisien daya pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan antara peserta didik yang menguasai kompetensi dengan peserta didik yang kurang menguasai kompetensi. Daya pembeda dapat dihitung dengan menggunakan rumus sebagai berikut:
π« = π·π¨ β π·π© Keterangan
D = Daya pembeda BA = Batas atas
JA = Jumlah batas atas BB = Batas bawah
JB = Jumlah batas bawah ππ΄ =π΅π΄
π½π΄ = Proporsi kelompok atas yang menjawab benar (ingat P, sebagai indeks keseluruhan).
ππ΅ =ππ΅
π½π΅ = Proporsi kelompok bawah yang menjawab benar.
Patokan yang pada umumnya dipegang adalah besarnya daya pembeda kurang dari 0,00-0,20 dapat diklasifikasikan Poor dengan interprestasi butir item jelek tidak memiliki daya pembeda yang baik, 0,21-0,40 klasifikasinya Satisfactory dengan interprestasi cukup, 0,41- 0,70 klasifikasinya. Good dengan interprestasi baik, 0,71-1,00
36 Rahmatika Rahayu dan M Djazari, βAnalisis Kualitas Soal Pra Ujian Nasional Mata Pelajaran Ekonomi Akuntansi,β Jurnal Pendidikan Akuntansi Indonesia XIV, no. 1 (2016): 89.
klasifikasinya Excellent dengan interprestasi baik sekali dan bertanda negatif berarti daya pembeda tidak baik semuanya.37
d. Fungsi Pengecoh
Dalam tes objektif bentuk multi choice dikenal dengan option atau alternatif. Option atau alternatif jumlahnya berkisar antara tiga sampai dengan lima buah, dan kemungkinan jawaban yang benar merupakan jawaban betul (kunci jawaban), sedangkan sisa-sisanya merupakan jawaban yang salah. Jawaban-jawaban yang salah merupakan distraktor atau pengecoh. Fungsi pengecoh ini dapat dihitung dengan rumus sebagai berikut:
ππ = π·
(π΅βπ©)/(πβπ)Γ πππ%
Keterangan:
IP = Indeks pengecoh
P = Jumlah peserta didik yang memilih pengecoh N = Jumlah peserta didik yang ikut tes
B = Jumlah peserta didik yang menjawab benar pada setiap soal N = Jumlah alternatif jawaban
1 = Bilangan Tetap38
Butir soal yang baik, pengecohnya akan dipilih secara merata oleh peserta didik yang menjawab salah, sebaliknya, butir soal yang kurang baik, pengecohnya akan dipilih secara tidak merata. Fungsi pengecoh dinyatakan telah dapat menjalankan fungsinya dengan baik apabila distraktor tersebut sekurang-kurangnya sudah dipilih oleh 5% dari seluruh
37 Suharsimi Arikunto, Dasar-Dasar Evaluasi Pendidikan, 232.
38 Zainal Arifin, Evaluasi Pembelajaran, 279.
peserta tes.39 Kriteria yang digunakan untuk menginterpretasikan fungsi pengecoh butir soal sebagai berikut :
a. Apabila semua pengecoh pada butir soal berfungsi, maka soal tersebut dikatakan sangat baik dan dapat disimpan dalam bank soal.
b. Apabila terdapat satu pengecoh pada butir soal tidak berfungsi, maka soal tersebut dikatakan baik dan dapat disimpan dalam bank soal dengan syarat opsi yang tidak berfungsi direvisi.
c. Apabila terdapat dua pengecoh pada butir soal tidak berfungsi, maka soal tersebut dikatakan tidak baik dan tidak dapat disimpan dalam bank soal. Soal tersebut harus direvisi sampai memenuhi kriteria soal yang baik.
d. Apabila terdapat tiga atau lebih pengecoh pada butir soal yang tidak berfungsi, maka soal tersebut dikatakan sangat tidak baik dan tidak dapat disimpan dalam bank soal. Soal tersebut harus direvisi sampai memenuhi kriteria soal yang baik atau soal tersebut dibuang dan diganti dengan soal yang baru.40