View of PERBEDAAN KUALITAS MODEL PENSEKORAN KOMPOSIT DAN PENALTI DITINJAU DARI DAYA BEDA DAN RELIABILITAS BUTIR SOAL PADA MATA PELAJARAN PENDIDIKAN AGAMA ISLAM

(1)

13 PERBEDAAN KUALITAS MODEL PENSEKORAN KOMPOSIT DAN PENALTI DITINJAU DARI DAYA BEDA DAN RELIABILITAS BUTIR SOAL PADA MATA

PELAJARAN PENDIDIKAN AGAMA ISLAM

Siti Hajaroh1

1)_{Universitas Islam Negeri Mataram}

Hajaroh.saif@gmail.com

Abstrak : Penelitian ini bertujuan untuk mengetahui perbedaan daya beda butir antara sekor siswa yang dihitung dengan menggunakan sekor komposit dan sekor penalti pada mata pelajaran Pendidikan Agama Islam, untuk mengetahui perbedaan reliabilitas butir antara sekor siswa yang dihitung dengan menggunakan sekor komposit dan sekor penalti pada mata pelajaran Pendidikan Agama Islam. Penelitian ini disebut quasi eksperimental karena data-data diperoleh melalui kegiatan eksperimen, Quasi experimen digunakan karena pada kenyataanya sulit mendapatkan kelompok kontrol yang digunakan untuk penelitian.1_Adapun

rancangan penelitian yang digunakan adalah dengan menggunakan The Posttest-Only Design

with nonequivalent Group.Populasi dalam penelitian ini adalah seluruh siswa kelas X SMAN

I Gerung Kabupaten Lombok Barat yang berjumlah 312 siswa yang kemudian diambil secara acak yang dijadikan sebagai sampel. Uji hipotesis penelitian yakni melakukan uji kesamaan dua rerata:kedua kelas berdistribusi normal dan homogen, maka dilakukan uji kesamaan dua rerata (Uji-t) melalui uji dua pihak menggunakan independent sample t-test. Hasil uji hipotesis I menunjukkan bahwa thitung= 0,471 sehingga thitung= 0,471

>Ltabel(0,05:78)=1,669Maka H0 diterima dan H1 ditolak , pada taraf signifikan α=0,05 artinya

tidak terdapat perbedaan Daya Beda antara sekor komposit dengan. Penalti. Ini menunjukkan bahwa jika ditinjau dari dari rata-rata kedua sekor, maka penekoran kedua kelompok tersebut adalah relatif sama. Dan hasil uji hipotesis ke 2 menunjukkan bahwa thitung= 4,2 sehingga

thitung= 4,2>Ltabel(0,05:10)=1,812, Maka H0 ditolak dan H1 diterima pada taraf signifikan α=0,05

artinya terdapat perbedaan Reliabilitas antara sekor komposit dengan penalti. Melihat perbandingan rata-rata dari kedua model pensekoran menunjukkan sekor penalti lebih tinggi dari pada sekor komposit. Artinya bahwa reliabilitas model pensekoran penalti lebih tinggi di banding dengan komposit

Kata Kunci: Pensekoran Komposit, Penalti, Daya Beda, Reliabilitas

PENDAHULUAN

Evaluasi merupakan suatu proses yang sistematis untuk menentukan dan membuat keputusan sampai sejauh mana tujuan-tujuan pengajaran telah tercapai.2 Sementara Sudijono berpendapat bahwa evaluasi adalah kegiatan atau proses untuk mengukur dan untuk menentukan nilai, sampai dimanakah tujuan yang telah

1_Sugiyono,_{Metodologi Penelilian Kuantitatif, Kualitatif}_{dan R & G (Bandung; Alafabeta,} 2008), h. 77.

(2)

14 dirumuskan sudah dapat dilaksanakan.3 Djaali juga berpendapat bahwa evaluasi adalah proses menilai sesuatu berdasarkan kriteria atau tujuan yang telah ditetapkan, yang selanjutnya diikuti oleh pengambilan keputusan atas obyek yang dievaluasi. Sementara Nitko memberikan pendapatnya bahwa evaluasi adalah sebuah proses untuk membuat keputusan penting mengenai sejauh mana hasil belajar yang dicapai oleh siswa telah tercapai.4

Sependapat dengan Nitko, Naga memberikan definisi bahwa evaluasi adalah proses melakukan pertimbangan nilai tentang sesuatu (produk, kinerja, proses, prosesdur, program, pendekatan, fungsi).5 Sementara Popham memberikan pendapat bahwa ada dua hal yang perlu diperhatikan dalam evaluasi, yaitu mengetahui validitas dan reliabilitas perangkat tes yang akan digunakan. Validitas menunjukkan apa yang hendak diukur, sedangkan reliabilitas berkenaan dengan sekor siswa sebagai peserta tes yang memiliki sekor yang sama ketika dites pada waktu dan tempat yang berbeda.6

Adapun fungsi evaluasi dalam dunia pendidikan tidak dapat dilepaskan dari tujuan evaluasi itu sendiri. Di dalam batasan tentang evaluasi pendidikan yang telah dijelaskan sebelumnya, tersirat bahwa tujuan evaluasi pendidikan adalah untuk mendapat data pembuktian yang akan menunjukkan sampai sejauh mana tingkat kemampuan dan keberhasilan siswa dalam pencapaian tujuan-tujuan kurikuler. Disamping itu juga dapat digunakan oleh guru-guru atau pengawas pendidikan untuk mengukur atau menilai sampai sejauh mana keefektifan pengalaman-pengalaman mengajar, kegiatan-kegiatan belajar, dan metode-metode mengajar yang digunakan. Dengan demikian, dapat dikatakan betapa pentingnya peranan dan fungsi evaluasi dalam proses belajar-mengajar. Secara umum evaluasi sebagai tindakan atau proses setidaknya memiliki tiga macam fungsi pokok, yaitu 1). Mengukur kemajuan, 2). Menunjang penyusunan rencana, 3). Memperbaiki dan melakukan perbaikan kembali.

3_{Anas Sudijono,}_{Pengantar Evaluasi Pendidikan}_{(Jakarta: Raja Grafindo Persada, 2005), h.} 8.

4_{Anthony J. Nitko,}_{Educational Assessment of Student}_{, (New Jersey: Prentice-Hall, Inc. A.} Simon & Schuster Company, Englewoods Cliffs, 2001), h.7.

5_{Dali S. Naga,}_{Teori Pengukuran}_{(Jakarta: Program Pasca Sarjana Universitas Negeri} Jakarta, 2008), h.1.

(3)

15 Mengenai betapa pentingnya sebuah evaluasi dalam kegiatan pembelajaran, Mehrens dan Lehmann dalam Djaali mengutip suatu ungkapan yang berbunyi ” to teach without testing is unthinkable” (mengajar tanpa melakukan tes tidak masuk

akal ).7 Demikian juga Parnel dalam Purwanto mengemukakan sebagai berikut; Pengukuran adalah langkah awal dari pengajaran. Tanpa pengukuran, tidak akan terjadi penilaian. Tanpa penilaian, tidak akan terjadi umpan balik. Tanpa umpan balik, tidak akan memperoleh pengetahuan yang baik tentang hasil. Tanpa pengetahuan tentang hasil, tidak akan terjadi perbaikan yang sistematis dalam belajar. 8

Istilah Pengukuran seringkali tertukar dengan pengertian tes.Demikian adalah lazim dikarenakan pemakaian istilah tes dan istilah pengukuran seringkali tidak mengandung arti yang berbeda dalam situasi-situasi tertentu. Cangelosi berpendapat bahwa pengukuran adalah proses pengumpulan data melalui pengamatan empiris.9 Sedangkan Silverius berpendapat bahwa pengukuran adalah suatu proses pemberian angka pada sesuatu atau seseorang berdasarkan aturan-aturan tertentu.10 Jadi hasil dari pengukuran tersebut dalam bentuk angka-angka (skor). Pengukuran tidak membuahkan nilai atau baik buruknya sesuatu, tetapi hasil pengukuran dapat dipakai untuk membuat penilaian atau pengukuran.

Pengukuran tidak melibatkan pertimbangan mengenai baik buruknya atau nilai dari tingkah laku yang sedang diukur. Seperti halnya tes, pengukuran pun tidak menentukan siapa yang lulus dan siapa yang tidak lulus. Pengukuran hanya membuahkan data kuantitatif mengenai apa yang hendak diukur. Tes merupakan alat ukur pengumpulan data yang mendorong peserta memberikan penampilan maksimal. Instrumen nontes merupakan alat ukur yang mendorong peserta untuk memberikan penampilan tipikal, yaitu melaporkan keadaan dirinya dengan memberikan respon

7_{Djaali dan Mulyono,}_{Pengukuran Dalam Bidang Pendidikan}_{(Jakarta: Gramedia, 2008), h.} 2.

8_{Parnel dalam Ngalim Purwanto,}_{Prinsip-prinsip dan Teknik Evaluasi Pengajaran}_(Bandung: PT. Remaja Rosdakarya. 2008), h. 8

9_{James. S. Cangelosi.} _{Merancang Tes Untuk Menilai Prestasi Siswa}_{(Bandung: ITB} Bandung, 1995), h. 21.

(4)

16 secara jujur sesuai dengan pikiran dan perasaannya.11Adapun dua syarat utama yang harus dipenuhi oleh suatu instrumen penilaian, yaitu validitas dan reliabilitas.

Hubungan antara reliabilitas dengan validitas dapat dilihat dalam tiga hal, yakni: (1) reliabilitas merupakan limit dari validitas. Ini mengandung makna bahwa interpretasi dan keputusan yang dihasilkan kurang valid jika hasil pengukuran tidak konsisten (tidak reliabel), (2)tingginya reliabilitas bukan jaminan validitas, reliabilitas yang tinggi tidak menjamin hasil interpretasi dan keputusan yang dihasilkan memberikan validitas yang tinggi. Hal itu disebabkan karena banyaknya ragam validitas yang berhubungan dengan reliabilitas, dan (3) reliabilitas merupakan syarat perlu untuk validitas, artinya derajat reliabilitas mempengaruhi validitas keputusan.12 Dengan keterkaitan tersebut, tampak bahwa kedudukan reliabilitas cukup penting dan diperlukan dalam menilai kualitas keputusan yang dihasilkan dari suatu proses pengukuran.

Masalah reliabilitas adalah masalah yang berkaitan dengan sekor yang dihasilkan dari suatu pengukuran, sehingga yang menjadi sorotan adalah sekor responden sebagai sekor komposit dari butir-butir instrument pengukuran. Pendekatan yang digunakan sampai saat ini untuk menghasilkan sekor komposit ialah pendekatan dengan menggunakan penskoran konvensional (summated rating).

Di bidang pendidikan, tidak semua cakupan materi pendidikan dapat dinyatakan dengan item tes obyektif. Oleh karena itu dianjurkan untuk para guru agar menggunakan item tes obyektif disesuaikan dengan kondisi permasalahan. Ditambah lagi ada sebagian guru segan dengan menggunakan item tes obyektif type pilihan ganda, karena adanya anggapan bahwa tes tersebut kurang dapat mengungkap pengetahuan siswa, khususnya pada tingkat yang lebih tinggi, yaitu sintesis dan analisis.

Adapun tes pilihan ganda dapat berfungsi untuk mengevaluasi aplikasi pengetahuan hasil belajar yang telah diberikan siswa selama satu semester. Aplikasi pengetahuan mempunyai fungsi untuk mendidik siswa agar kelak, mereka bukan hanya menguasai intelektual yang tinggi atau dengan kata lain teoritisnya saja akan

11_Purwanto,_{Evaluasi Hasil Belajar}_{(Yokyakarta: Pustaka Pelajar, 2009), h. 56.}

(5)

17 tetapi juga menguasai aplikasi pengetahuan yang pada akhirnya dapat dikembangkan dan profesional siswa pada bidang masing-masing.

Gronlund juga berpendapat bahwa Item tes pilihan ganda juga dapat digunakan untuk mengukur batasan atau definisi pengetahuan yang sudah jelas, sedangkan untuk batasan pengetahuan yang masih kurang jelas para guru dianjurkan untuk menggunakan item tes menjodohkan.13

Sebagaimana dijelaskan di atas bahwa item tes pilihan ganda merupakan bentuk tes yang mempunyai satu jawaban yang benar dan paling tepat, maka menurut Sudjana jika diliha dari strukturnya bentuk pilihan ganda terdiri atas:

-Sistem :Pertanyaan atau pernyataan yang berisi permasalahan yang

akan ditanyakan

-Option :Sejumlah pilihan atau alternatif jawaban

-Kunci :Jawaban yang benar atau paling tepat

- Distractor (pengecoh):Jawaban-jawaban lain selain pengecoh14

Bentuk soal pilihan ganda memiliki banyak variasi. Selain bentuk pilihan ganda biasa terdapat model bentuk pilihan ganda liannya, yaitu bentuk soal hubungan antar hal (HAH) dan Bentuk pilihan ganda kompleks (PGK). Pada kedua bentuk soal itu masing-masing pilihan jawabannya ditetapkan dan berfungsi sebagai petunjuk jawaban soal.

Tipe tes bentuk pilihan ganda terdapat peluang menjawab benar sekalipun jawaban itu dipilih hanya dengan cara menebak (lucky guess), padahal seharusnya mereka yang memang tidak tahu jawaban yang benar tidaklah berhak untuk mendapatkan angka. Model pensekoran dengan pengurangan sekor sebagai “hukuman” ini disebut correction for guessing (Sekor Penalti).

Temuan di lapangan menunjukkan beberapa permasalahan yang dihadapi guru, antara lain:1) dalam seleksi penerimaan siswa baru seringkali menemukan hasil skor tes yang diperoleh peserta didik tidak sesuai dengan kemampuan yang sebenarnya (tidak objektif). Beberapa siswa dengan skor yang tinggi pada kenyataannya memiliki kemampuan yang biasa-biasa saja. 2) ketika UTS atau UAS, beberapa siswa cenderung tidak berhati-hati dalam menjawab soal sehingga

13_Ibid.,_{h. 125.}

(6)

18 hasilnyapun tidak sesuai yang diharapkan. 3). Selama ini beberapa sekolah cenderung hanya menggunakan model pensekoran komposit saja tidak pernah menggunakan model pensekoran yang lain. 4). Beberapa guru tidak pernah mengetahui kualitas model pensekoran dan tidak pernah melakukan uji coba, sehingga tidak mengetahui model pensekoram mana yang lebih objektif mampu menggambarkan kemampuan siswa.

Dengan beberapa permasalahan di atas, dua model penskoran yakni model sekor komposit dan model sekor penalti perlu diketahui dan diteliti secara lebih lanjut mengenai model pensekoran mana yang baik dan objektif menggambarkan kemampuan siswa serta paling tepat untuk digunakan, diterapkan dalam proses penilaian siswa di sekolah terutama pada bentuk tes Pilihan Ganda (PG). Untuk mendapatkan model pensekoran yang benar, perlu dilakukan suatu penelitian yang dapat mengetahui perbandingan model pensekoran siswa dalam bidang pendidikan agar didapatkan suatu model pensekoran yang tepat.

Dua model pensekoran tersebut, masing-masing akan dicari daya beda dan reliabilitasnya yang selanjutnya akan dibandingkan dengan tujuan untuk mengetahui model pensekoran mana yang paling efektif digunakan untuk mengukur kemampuan siswa. Untuk menguji coba instrumen tersebut, peneliti menjadikan SMAN I Gerung sebagai lokasi uji coba dengan pertimbangan bahwa lembaga tersebut merupakan salah satu sekolah favorit dan jumlah siswa yang relatif banyak. Berdasarkan pada latar belakang di atas, maka rumusan masalah dalam penelitian ini adalah: Apakah terdapat perbedaan daya beda butir antara sekor siswa yang dihitung dengan menggunakan sekor komposit dan sekor penalti pada mata pelajaran Pendidikan Agama Islam, Apakah terdapat perbedaan reliabilitas butir antara sekor siswa yang dihitung dengan menggunakan sekor komposit dan sekor penalti pada mata pelajaran Pendidikan Agama Islam.

METODE PENELITIAN

(7)

19 desainquasi eksperimen. Penelitian ini disebut quasi eksperimental karena data-data diperoleh melalui kegiatan eksperimen, Quasi experimen digunakan karena pada kenyataanya sulit mendapatkan kelompok kontrol yang digunakan untuk penelitian.15

Adapun rancangan penelitian yang digunakan adalah dengan menggunakan rancangan satu kelompok dimana subyek diacak dengan cara memberikan tes akhir saja atau dikenal dengan (The Posttest-Only Design with nonequivalent Group)”.16 Penelitian ini dilakukan di SMAN 1 Gerung Kabupaten Lombok Barat. Adapun waktu penelitiannnya adalah mulai Juni – November 2018

Populasi dalam penelitian ini adalah seluruh siswa kelas X SMAN I Gerung Kabupaten Lombok Barat yang berjumlah 312 siswa yang kemudian diambil secara acak yang dijadikan sebagai sampel.Dalam pengambilan sampel

(sampling)penelitian dilakukan dengan teknik acak sederhana (simple random

sampling). Sebagaimana diketahui bahwa dalam pengambilan teknik simple rondom

sampling ini seluruh individu yang menjadi anggota populasi memiliki peluang yang sama dan bebas dipilih sebagai anggota sampel, karena sampel tersebut dianggap memiliki karakteristik yang sama (homogen).17 Jadi pemilihan individu-indvidu tersebut dianggap tidak akan mempengaruhi individu yang lainnya. Adapun cara pengambilanya dilakukan dengan cara diundi.

Prosedur pengumpulan data melalui tahap-tahap sebagai berikut: Intrumen tes yang dibuat pada tiap-tiap pensekoran adalah sama, Pada tiap-tiap instrumen tes diberi kode SKom dan SPenyang kemudian instrumen tersebut akan disebarkan kepada siswa, Berdasarkan jumlah sampel yang ditentukan, kemudian akan dibagi 2 kelompok yang masing-masing kelompok kemudian akan dihitung pensekorannya menggunakan pensekoran komposit dan penalti, Selanjutnya dari hasil masing-masing pensekorannya, akan dihitung daya beda dan reliabilitas butirnya.

Teknik analisis data dalam penelitian ini antara lain;

15_Sugiyono,_{Metodologi Penelilian Kuantitatif, Kualitatif}_{dan R & G (Bandung; Alafabeta,} 2008), h. 77.

16_{Thomas D. Cook dan Donald T. Campbell,}_{Quasi-Experimentation: Design & Analysis}

(8)

20 a. uji persyaratan analisis yang meliputi uji normalitas (Uji Liliefors).18 Uji normalitas hanya dilakukan pada reliabilitas tes, karena nilai-nilai reliabilitas tes yang akan digunakan diperoleh dari pengambilan berulang kali secara acak terhadap responden penelitian. Dengan tujuan untuk mengetahui apakah dari kelas yang berdistribusi normal atau tidak.

b. Melakukan uji homogenitas varian dengan Uji fisher19_{Untuk mengetahui} kesamaan varians (homogenitas) kedua pensekoran

c. Menguji hipotesis penelitian yakni melakukan uji kesamaan dua rerata untuk kelas berdistribusi normal dan homogen, maka dilakukan uji kesamaan dua rerata

(Uji-t) melalui uji dua pihak menggunakan independent sample t-test.

HASIL PENELITIAN DAN PEMBAHASAN

Hasil Penelitian

Pengambilan sampel pada kelompok siswa yang diberi pensekoran Komposit dilakukan secara rondom dengan mengambil siwa dari jurusan IPA dan IPS sebanyak 143 siswa. Hasil uji coba terhadap 143 responden yang diberi sekor komposit dengan jumlah butir soal 40 buiti diperoleh sekor tertinggi adalah 38 dan sekor terendah 8. Rentang sekor tertinggi yang diperoleh adalah 28-31 yaitu sebanyak 36% (51 siswa) dari keseluruhan siswa. Secara jelas perbandingan perolehan sekor dapat dilihat pada histogram berikut;

Gambar .1. Histogramskor siswa dengan Menggunakan

Model Pensekoran Komposit

18_Kadir,_{Statistika Untuk Penelitian Ilmu-Ilmu Sosial}_{, (Jakarta: RosemataSampurna, 2010),} h. 109

19_Ibid_{., h. 117}

5 4 8 9

46 51

14

6

3% 3% 6% 6% 32% 36% 10% 4%

(9)

21 Pengambilan sampel pada kelompok siswa yang diberi pensekoran Komposit dilakukan secara rondom dengan mengambil siswa dari jurusan IPA dan IPS sebanyak 142 siswa. hasil uji coba terhadap 143 responden yang diberi sekor komposit dengan jumlah butir soal 40 buiti diperoleh sekor tertinggi adalah 38 dan sekor terendah 7. Rentang sekor tertinggi yang diperoleh adalah 27-30 yaitu sebanyak 34% (48 siswa) dari keseluruhan siswa. Secara jelas perbandingan perolehan sekor dapat dilihat pada histogram berikut;

Gambar 2. Histogramskor siswa dengan Menggunakan

Model Pensekoran Komposit

Data Daya Beda Soal dengan Menggunakan Model Pensekoran Komposit dan

Penalt

Hasil analisis menunjyukkan bahwa daya beda terendah pada model pensekoran komposit adalah 0,05 sebanyak 1 butir (butir 15) Kemudian daya beda tertinggi adalah 0,35 sebanyak 1 butir (butir7). Kemudian sekor terendah pada model pensekoran penalti adalah 0.07 sebanyak 4 butir (15,20, 21, 23), sekor tertinggi 4,1 sebanyak 1 butir. Dari hasil analisis uji daya beda di atas, maka kriteria pengelompokan daya beda butir soal dapat dilihat pada histogram berikut:

Gambar 3. Histogram Daya Beda butir dengan Menggunakan

Model Pensekoran Komposit dan Penalti

8

1 5

11

45 48

18

6

6% 1% 4% 8% 32% 34% 13% 4%

0 10 20 30 40 50 60

7-10 11-14 15-18 19-22 23-26 27-30 31-34 35-38

(10)

22 Histogram di atas menunjukkan bahwa berdasarkan hasil analisis daya beda butir pada model pensekoran komposit diperoleh 29 butir soal (27,5%) buruk, 11 butir soal (27,5%) cukup dan tidak terdapat daya beda butir dengan kategori baik atau sangat baik. Sehingga dapat disimpulkan bahwa berdasarkan hasil uji coba dari 40 butir soal sebagian besar butir soal pada bentuk pilihan ganda dengan menggunakan model pensekoran komposit adalah r (jelek).

Reliabilitas butir Soal dengan Menggunakan Model Pensekoran Komposit.

Uji reliabilitas tes pilihan ganda diperoleh dari analisis dan perhitungan terhadap sekor siswa yang masing-masing dihitung berdasarkan model pensekorannya yaitu komposit dan penalti. Kemudian dari hasil uji coba tersebut dilakukan analisis reliabilitas dengan melakukan pengambilan secara acak terhadap 143 siswa untuk pensekoran komposit dan 142 untuk pensekoran penalti. Masing-masing diambil secara acak (rondom) sebanyak 70 siswa dengan pengulangan 6 kali, sebagaimana di gambarkan pada tabel berikut:

Tabel 1. Rellliabilitas butir dengan Menggunakan

Model Pensekoran Komposit dan penalti

Uji analisis ke- Reliabilitas komposit Reliabilitas penalti

1 0.692 0.886

2 0.885 0.843

3 0.850 0.878

4 0.869 0.868

5 0.821 0.860

6 0.732 0.864

Tabel di atas menunjukkan hasil bahwa hasil analisis uji reliabilitas pada pensekoran komposit diperoleh hasil tertinggi 0,885 dengan kategori

0 10 20 30 40 50 60

< 0.00 0.00-0.2 0.21 –0.400.41 –0.700.71 –1.00

Penalti

(11)

23 sangat tinggi dan terendah 0.692 dengan kategori sedang. Sebagaimana tabel berikut:

Tabel 2. Kategorisasi hasil uji Rellliabilitas butir dengan Menggunakan Model

Pensekoran Komposit

Interval Komposit Interpretasi

0.91-1.00 0 sangat tinggi

0.71-0.90 5 tinggi

0.41-0.70 1 sedang

0.21-0.40 0 rendah

Negatif-0.20 0 sangat rendah (tidak reliabel)

Gambar 4. Histogram hasil uji Rellliabilitas butir dengan Menggunakan Model

Pensekoran Komposit

Sedangkan pada pensekoran Penalti diperoleh nilai tertinggi 0,886 dengan kategori tinggi. Sebagaimana dilihat pada tabel dan histogram berikut:

Tabel 3. Kategorisasi hasil uji Rellliabilitas butir dengan Menggunakan Model

Pensekoran Penalti

Interval Penalti Interpretasi

0.91-1.00 0 sangat tinggi

0.71-0.90 6 tinggi

0.41-0.70 0 sedang

0.21-0.40 0 rendah

Negatif-0.20 0 sangat rendah (tidak reliabel)

0 2 4 6

0.91-1.00 0.71-0.90 0.41-0.70 0.21-0.40 <0.20

Komposit

(12)

24 Perbandingan hasil uji reliabilitas pensekoran Komposit dan penalti menunjukkan bahwa reliabilitas pensekoran penalti lebih tinggi dibanding model pensekoran penalti. dapat dilihat pada gambar histogram berikut:

Gambar 4. Histogram Perbandingan hasil uji Rellliabilitas butir dengan

Menggunakan Model Pensekoran Komposit dan penalti

Pengujian Persyaratan Analisis Instrumen

1. Uji validitas/Daya Beda(Tes)

Instrumen yang baik adalah instrumen yang diketahui kualitasnya dan salah satunya yaitu melalui tahap uji validitas. Secara empiris, instrumen dalam bentuk tes jika sudah diketahui daya bedanya maka tidak perlu dianalisis validitasnya atau konsistensinya, karena daya beda sama dengan validitas butir. Dalam penelitian ini peneliti mengambil instrumen dari bank soal sekolah yang secara konten sudah divalidasi oleh tim guru sebagai validator akan tetapi peneliti tetap melakukan analisis uji validitas atau daya beda butir soal. Hasil uji coba dari 40 butir yang diambil dari bank soal seluruhnya adalah valid.

2. Reliabilitas

Berdasarkan hasil uji reliabilitas tes diperoleh r hitung = 0,86 dan r tabel = 0.7 sehingga r hitung > rtabel, maka dapat disimpulkan bahwa instrumen tersebut adalah reliabel.

3. Tingkat Kesukaran Butir.

Hasil analisis tingkat kesukaran butir dilakukan untuk mengetahui apakah instrumen tes yang digunakan untuk mengukur kemampuan siswa berkategori

0 2 4 6 8

0.91-1.00 0.71-0.90 0.41-0.70 0.21-0.40 Negatif-0.20

Series1

(13)

25 sukar, mudah, sedang. Hasil analisis instrumen pada penelitian ini diperoleh: 2 butir sukar, 20 sedang, dan 18 mudah. Sebagaimana tabel berikut:

Tabel 3. Tingkat Kesukaran Butir

Nilai p frekuensi Kategori

p < 0.3 2 Sukar

0.3 ≤ p ≤ 0.7 20 Sedang

p > 0.7 18 Mudah

ji Normalitas

Uji normalitas yang digunakan dengan uji Lilliefors pada taraf signifikansi 5% . hasil perhitungan dan uji signifikansi indeks normalitas (harga L) pada dua kelompok disajikan pada tabel berikut:20

TABEL 4.7

UJI NORMALITAS

Kelompok Lhitung LTabel Keterangan

komposit 0.1044 0.866 Normal

Kompensasi 0.1233 0,866 Normal

p < 0.3

0.3 ≤ p ≤ 0.7

p > 0.7 2

20

18

5%

50%

(14)

26

Uji Homogenitas

Hasil analisis uji normalitas data skor komposit dengan menggunakan uji fisher

diperoleh F-hitung= 1,113 dan F-tabel = 1,39 artinya F hitung<F tabel maka Varians kedua kelompok adalah homogen.

Hipotesis 1 (perbandingan Daya Beda pensekoran komposit dengan Penalti)

Sebagaimana hasil persyaratan analisis uji homogenitas bahwa kedua skor pretest memiliki varians yang sama. Adapun hasil perhitungan analisis dengan uji t disajikan sebagai berikut

a. Hipotesis Statistik

H0 :



eksperimen kontrol

H1 :



kont rol ≠

eksperimen

Tabel 4. rata-rata dan varians sekor komposit dan penali

Sekor rata2 Varians Komposit 0.215 0.006897 Penalti 0.2215 0.006916

Kriteria pengujian.

Untuk α = 0,05 dan dk= 40+40-2 = 78

2

t

_



<

t

_{hit ung}<

2

t

_ maka H0 diterima dan H1 ditolak

Kesimpulan

thitung= 0,471 sehingga thitung= 0,471 >Ltabel(0,05:78)=1,669

(15)

27

Uji Hipotesis 2(Perbandingan reliabilitas pensekoran komposit dengan Penalti)

Kriteria pengujian.

Untuk α = 0,05 dan dk= 6+6-2 = 10

2

t

_



<

t

_{hit ung}>

2

t

_ maka H0 ditolak dan H1 diterima

Hasil analisis menunjukkan bahwa thitung= 4,2 sehingga thitung= 4,2>Ltabel(0,05:10)=1,812 Maka H0 ditolak dan H1 diterima pada taraf signifikan α=0,05 artinya terdapat perbedaan reliabilitas antara sekor komposit dengan penalti. Melihat perbandingan rata-rata dari kedua model pensekoran menunjukkan sekor penalti lebih tinggi dari pada sekor komposit. Artinya bahwa reliabilitas model pensekoran penalti lebih tinggi di banding dengan komposit

Pembahasan

(16)

28 Sebuah instrumen dikatakan reliabel jika alat ukur tersebut menunjukkan sejauh mana hasil pengukuran dengan alat tersebut dapat dipercaya. Hal ini ditunjukkan oleh taraf konsistensi sekor yang diperoleh oleh para subjek yang diukur dengan alat yang sama, atau diukur dengan alat yang setara pada kondisi yang berbeda. Dalam artinya yang paling luas, realiabilitas alat ukur menunjuk kepada sejauh mana perbedaan sekor perolehan itu mencerminkan perbedaan-perbedaan atribut yang sebenarnya.

Berdasarkan sejarah, reliabilitas sebuah instrumen dapat dihitung melalui dua cara yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua statistik di atas memiliki keterbatasannya masing-masing. Kesalahan pengukuran merupakan rangkuman inkonsistensi peserta tes dalam unit-unit skala skor sedangkan koefisien reliabilitas merupakan kuantifikasi reliabilitas dengan merangkum konsistensi (atau inkonsistensi) diantara beberapa kesalahan pengukuran.

Setiap kali melakukan pengukuran atau pengamatan, jarang sekali dijumpai adanya hasil pengukuran atau pengamatan yang dapat menggambarkan keadaan yang sebenarnya secara tepat. Ini berarti bahwa dalam proses pengukuran selalu dijumpai adanya kesalahan-kesalahan pengukuran. Pekerjaan mengukur berarti mengestimasi gejala. Dalam melakukan estimasi tersebut, yang diharapkan ialah bahwa estimasi tersebut dituntut untuk menggambarkan gejalanya persis seperti keadaan sebenarnya. Bila dalam proses pengukuran peneliti tidak melakukan kesalahan, berarti estimasinya tepat. Sebaliknya apabila dalam melakukan pengukuran mengalami banyak kesalahan pengukuran, maka tentu saja hasilnya tidak persis seperti keadaan yang sebenarnya.

Sebagaimana hasil uji reliabilitas kedua model pensekoran yang menunjukkan bahwa thitung= 4,2 sehingga thitung= 4,2>Ltabel(0,05:10)=1,812 Maka H0 ditolak dan H1 diterima pada taraf signifikan α=0,05 artinya terdapat perbedaan daya beda antara sekor komposit dengan penalti. Melihat perbandingan rata-rata dari kedua model pensekoran menunjukkan sekor penalti lebih tinggi dari pada sekor komposit. Artinya bahwa reliabilitas model pensekoran penalti lebih tinggi di banding dengan komposit.

(17)

29 dengan keadaan gejala yang sebenarnya. Dalam kenyataannya kita sulit mengetahui keadaan yang sebenarnya tersebut, akan tetapi dengan memperhitungkan hasil pengukuran dengan memperhatikan besarnya kesalahan pengukuran, kita akan dapat mengestimasi keadaan gejala yang sebenarnya.

Kita akan memperoleh koefisien reliabilitas sempurna apabila kita tidak me-lakukan kesalahan pengukuran, atau dengan perkataan lain sekor kesalahan pengukuran adalah nol. Dalam kasus semacam ini tidak akan terjadi variasi sekor antar individu. Dalam perhitungan statistik, besarnya varians antar individu sama dengan nol. Dalam kasus seperti ini, kita akan memperoleh koefisien reliabilitas sebesar 1.00, di mana angka ini merupakan angka besarnya koefisien reliabilitas maksimal. Sebaliknya apabila peneliti melakukan kesalahan dalam proses pengukuran atau pengamatannya, tentu koefisien reliabilitasnya tidak akan sebesar 1.00.

Apabila dalam penelitian melakukan kesalahan sempurna, yang berarti semua pengukurannya mengalami kesalahan, maka akan diperoleh koefisien reliabilitas sama dengan 0.00. Oleh karena itu secara konsep, koefisien reliabilitas akan bergerak dari 0.00 – 1.00.

(18)

30 disimpulkan bahwa koefisien reliabilitas sekor komposit penalti lebih tinggi dibanding sekor komposit. Artinya bahwa model pensekoran yang paling efektif mampu menggambarkan kemampuan peserta didik paling objektif adalah dengan pensekoran penalti.

Oleh karena pentingnya hubungan antara kekonsistensian sekor dengan reliabilitas tes, maka perlu dilakukan penelitian yang baik agar dapat diketahui model penghitungan sekor siswa yang tepat dalam proses pengukuran dan penilaian di sekolah. Hal ini tentu saja akan sangat membantu para guru, siswa serta pihak terkait lainnya dalam menentukan sistem pemberian sekor yang paling tepat untuk selanjutnya diterapkan dan digunakan dalam sistem penilaian.

KESIMPULAN DAN SARAN

Kesimpulan

Berdasarkan hasil analisis, maka dapat disimpulkan bahwa:

1. Hasil uji hipotesis daya beda butir menunjukkan bahwa thitung= 0,471 sehingga thitung= 0,471 >Ltabel(0,05:78)=1,669 Maka H0 diterima dan H1 ditolak pada taraf signifikan α=0,05 artinya tidak terdapat perbedaan daya beda antara sekor komposit dengan. Penalti. Ini menunjukkan bahwa jika ditinjau dari dari rata-rata kedua sekor, penekoran kedua kelompok tersebut adalah relatif sama

2. Sebagaimana hasil uji reliabilitas kedua model pensekoran yang menunjukkan bahwa thitung= 4,2 sehingga thitung= 4,2>Ltabel(0,05:10)=1,812 Maka H0 ditolak dan H1 diterima pada taraf signifikan α=0,05 artinya terdapat perbedaan daya beda antara sekor komposit dengan penalti. Melihat perbandingan rata-rata dari kedua model pensekoran menunjukkan sekor penalti lebih tinggi dari pada sekor komposit. Artinya bahwa reliabilitas model pensekoran penalti lebih tinggi di banding dengan komposit.

Saran

(19)

31 perguruan tinggi khusunya dapat digunakan untuk placemen tes, penerimaan siswa baru, penilaian hasil ujian dan seleksi mahasiswa.

DAFTAR PUSTAKA

Anastasi, Anne Psychological Testing, New York: Macmillan Publishing Company, 1997.

Arikunto, Suharsimi, Dasar-dasar Evaluasi Pendidikan, Jakarta :Bumi Aksara, 2010. Bakti, Yoga Budi Pengaruh Jumlah Alternatif Jawaban Dan Teknik Penskoran

Terhadap Reliabilitas Tes, (Jurnal Formatif volum 5, no 1), 2015. . Cangelosi. James. S. Merancang Tes Untuk Menilai Prestasi Siswa, Bandung: ITB

Bandung, 1995.

Cook, Thomas D. dan Donald T. Campbell, Quasi-Experimentation: Design &

Analysis Issues for Field Settings (London.: Houghton Mifflin Company,

1979..Jakarta: Gramedia, 2008..

Gronlund, N.E., How To Construct Achievement Test, Engle Wood Clifs, New Jersey: Prentice Hall, 1988.

Gronlund, Norman E., Measurement and Evaluation in Teaching, New York: Machmillan Publishing Company, 1985

.

Hajaroh, Siti Perbandingan Reliabilitas Butir Soal Bahasa Arab Antara Tes Pilihan

Ganda Dengan Matching Tes Pada Tes Buatan Guru, (Jurnal

EL-Hikmah, Volum 10, No 2), 2016.

Hasan, Hamid Evaluasi Hasil Pengajaran IPS dan Pengajaran Remedial, Jakarta, UT, 2010.

Kadir, Statistika Untuk Penelitian Ilmu-Ilmu Sosial, Jakarta: RosemataSampurna, 2010

McMillan, James H., Assesment Essential for Standards-Based Education, Cafornia: Carwin Press, A Sage Company, 2008.

Naga, Dali S. Teori Pengukuran, Jakarta: Program Pasca Sarjana Universitas Negeri Jakarta, 2008

(20)

32 Nitko, Anthony J. Educational Assessment of Student(New Jersey: Prentice-Hall, Inc.

Simon, A. & Schuster Company, Englewoods Cliffs, 2010

Popham, W. James, Modern Educational Measurement, Los Angeles: University of California, 1981.

Purwanto, Evaluasi Hasil Belajar, Yokyakarta: Pustaka Pelajar, 2009

Purwanto, Ngalim, Prinsip-prinsip dan Teknik Evaluasi Pengajaran, Bandung: PT. Remaja Rosdakarya. 2008

Silverius, Suke, Evaluasi Hasil Belajar dan Umpan Balik, Jakarta: Grasindo, 1991. Sudijono, Anas, Pengantar Evaluasi Pendidikan (Jakarta: Raja Grafindo Persada,

2005

Sudjana, Nana Penilaian Hasil Proses Belajar Mengajar, Bandung: PT. Remaja Rosdakarya, 2009.

Sugiyono, Metodologi Penelilian Kuantitatif, Kualitatif dan R & G, Bandung; Alafabeta, 2008.

---, Statistik Untuk Penelitian, Bandung: Alvabeta, 2007

Sukadji, Soetarlinah Jurnal Tentang Validitas dan Reliabilitas, p. 3. Diakses tanggal 7 Januari 2017, http://lussysf.multiply.com/journal/item/137.

Tambunan, Wilman, Evaluation Of Standard Achievement, Jakarta: Departemen Pendidikan dan Kebudayaan. Dirjen.Dikti, 2008.

Undang-undang No.20 tahun 2003 Tentang Sistem Pendidikan Nasional