Kriteria
untuk Mengevaluasi Tes Standar
Norma.
Untuk
memahami kinerja murid individual dalam suatu tes, kinerjanya itu perlu dibandingkan
dengan kinerja dari kelompok norma (norm group), yakni kelompok dari individu
yang sama yang sebelumnya telah diberi ujian oleh penguji
Validitas.
Validitas
biasanya didefinisikan sebegai sejauh mana sebuah tes bisa mengukur apa saja
yang hendak diukur. Akan tetapi, makin banyak pakar pendidikan yang percaya
bahwa penting untuk menekankan bahwa bukan hanya karakteristik dari tes itu
sendiri yang valid atau tidak Jadi, validitas adalah sejauh mana sebuah tes
mengkur apa yang hendak dikur dan interfensi tentang nilai tes itu akurat atau
tidak. Dari segi karakteristik tes itu sendiri ada tiga tipe validitas:
validitas isi, validitas kriteria, validitas konstruk (susunan).
Tes standar yang valid
harus mengandung validitas isi yang
baik, yaitu kemampuan tes untuk mencakup sampel (to sample) isi yang
hendak diukur. Bentuk lain dari validitas adalah validitas kriteria, yaitu kemampuan tes untuk memprediksi kinerja
murid saat diuukur dengan penilaian atau kriteria lain. Validitas kriteria
dapat bersifat concurrent dan predictive
(Gregory, 2000; Krueger, 2000). Concurrent validity adalah relasi
anatara nilai tes dengan kriteria lain yang ada saat ini. Predictive validity adalah
relasi antara nilai tes dengan kinerja masa depan murid. Tipe ketiga dari validitas
adalah construct validity, yaitu
sejauh mana ada bukti bahwa sebuah tes
mengukur konstruk (ciri atau karakteristik yang tidak bisa dilihat secara
langsung dari seseorang, seperti intelegensi)tertentu.
Reliabilitas.
Hal
ini berarti sejauh mana sebuah prosedur tes bisa menghasilkan nilai yang
konsisten dan dapat direproduksi. Agar dapat disebut reliability, nilai harus
stabil, dependable, dan relatif bebas
dari kesalahan pengukuran (Fekken, 2000; Popham, 2002). Reliabilitas dapat
diukur dengan beberapa cara, yaitu test-retest
reliability, alternate forms realibility, split-half dan reliability .
Test-retest reliability
adalah
sejauh mana sebuah tes menghasilkan kinerja yang sama ketika seseorang siswa
diberi tes yang sama dalam dua kesempatan yang berbeda. Jadi, jika sebuah tes
sains standar kelas empat diberikan kepada semua kelompok murid hari ini dan
kemudian diberikan lagi sebulan kemudian, tes itu akan dianggap reliable apabila nilai murid konsiten dalam dua tes
tersebut.
Alternate-forms reliability
ditentukan dengan memberikan bentuk yang berbeda dari tes yang sama pada dua
kesempatan yang berbeda untuk kelompok murid yang sama dengan mengamati
seberapa konsisten skornya. Item tes pada dua bentuk itu sama tetapi tidak
identic. Strategi ini mengeliminasi kemungkinan bahwa murid akan meraih hasil
yang lebih baik pada tes kedua.
Split-hlf reliability adalah
membagi item tes menjadi dua bagian, seperti item bernomor genap dan ganjil.
Nilai pada dua set item itu dibandingkan guna menentukan seberapa konsistenkah
kinerja murid di kedua set tersebut. Jika split-half
reliability nya tinggi, kita katakan bahwa tes itu konsisten secara
internal.
Keadilan.
Tes
yang adil (fair) adalah tes yang
tidak bias (unbiased) dan tidak
diskriminatif (McMillan, 2001). Tes itu tidak dipengaruhi oleh factor-faktor
seperti gender, etnis, atau faktor, subjektif seperti bias penilai.
Tidak ada komentar:
Posting Komentar