Week 1: Introductie Assessment en Evaluatie
Hoorcollege week 1
Assessment en evaluatie worden vaak door elkaar gebruikt, zonder duidelijke definities.
Assessment:
- In algemeen: oordeel over de kwaliteit, waarde, relevantie of waarde van iets/iemand
- In onderzoek: systematisch proces om informatie van deelnemers te verkrijgen en deze
te gebruiken om conclusies of oordelen over hen te maken
- Onderwijs richt zich op meer dan alleen kennis (bijvoorbeeld motivatie)
- Door tests en vragenlijsten
- Kwaliteit beoordelen: criteria beoordelingskwaliteit (beoordeling van individuen)
Evaluatie:
- Zorgvuldige beoordeling van iets, m.n. om de waarde of wenselijkheid ervan te bepalen.
- Kwaliteit beoordelen: criteria is reeks beoogde resultaten, bijvoorbeeld leerdoelen
(beoordeling van programma’s en beleid)
- Twee rollen: formatief en summatief.
Doelen van assessment:
- Progressie in leerproces meten
- Informatie genereren over hoe doelen kunnen worden bereikt
- Behalen en belang van doelen beoordelen
Stakeholders: leerlingen en studenten, docenten, ouders, ministerie van onderwijs, cultuur en
wetenschap, CITO, etc. Rekening houden met alle perspectieven.
Probleem: stakeholders hebben allemaal verschillende perspectieven (andere mening/opvatting
van bepaalde vraag)
Doelen en ontwikkeling meetinstrument:
1. Vragenlijst/interview -> attitude, opvattingen, voorkeuren
2. Kennistoetsen -> kennis en beheersingsniveaus
3. Performance assessments -> vaardigheden en beheersingsniveaus
4. Formatief assessment -> niveau bepalen om persoon feedback te geven, om betere
uitkomst te bereiken.
Beperkingen van vragenlijsten:
- Deelnemers interpreteren items niet goed
- Te weinig inzicht
- Reference bias: vergelijken met totaal andere groepen
- Faken en sociale wenselijkheid
- Gemiddelde schatting versus situatie en moment
Kennistoetsen:
Summatief toetsen: summatief als het gebruikt wordt bij het nemen van beslissingen die te
maken hebben met de eindresultaten van een onderwijsproces.
- Doel: score van een examenkandidaat verkrijgen die nauwkeurig het niveau van het te
bereiken vaardigheid/kennis weergeeft
,Mogelijk probleem:
- type en aantal studenten kan data die voor assessment doelen verzameld is beïnvloeden
- Variantie in studenten van jaar tot jaar kan van invloed zijn op hoe moeilijk of gemakkelijk
testitems en tests zullen lijken
Limitaties van toetsen:
- Misinterpretatie
- Weerspiegelt mogelijk niet gedrag en competentie van de getoetste in alle situaties
- Opdracht toetst meer dan wat gevraagd is (oog-hand coördinatie)
- Kunstmatige situaties
- Oefeningseffecten
- Contexteffecten
- Random meetfout
- Bij summatieve kennistoetsen heb je het probleem dat het verschilt per leerling, per jaar
hoe moeilijk of makkelijk het wordt ervaren, bijvoorbeeld afhankelijk van voorkennis
Kwaliteit van assessment hangt af van: testitems (elke vraag), opdrachten, kennistoetsen,
proces van toetsen, programma van toetsen (gerelateerd aan cursus/curriculum), procedures,
policies, administratie.
Kwaliteitseisen van assessment
Psychometrische eisen
Validiteit: mate waarin een testscore kan worden geïnterpreteerd en gebruikt voor het beoogde
doel.
- Inhoudsvaliditeit: of de inhoud van een instrument (de vragen of schalen) representatief
is voor de onderwerpen die het instrument probeert te meten.
- Face validity: het construct komt bijvoorbeeld niet eens voor in een item
- Begripsvaliditeit/construct validity: de mate waarin een meetinstrument (zoals een
test) het construct meet dat het moet meten.
De test wordt hierbij vergeleken met metingen van gerelateerde constructen (convergente
validiteit) en niet-gerelateerde constructen (discriminante validiteit).
- Convergente validiteit: mate waarin antwoorden op een test/instrument een
sterke relatie vertonen met antwoorden op conceptueel vergelijkbare tests of
instrumenten.
- Voorbeeld: correlatie tussen wiskundeangst en statistiek angst
, - Divergente validiteit: mate waarin een test of meting afwijkt van (d.w.z. niet
correleert met) een andere meting waarvan de onderliggende constructie er
conceptueel niets mee te maken heeft
- Voorbeeld: correlatie tussen wiskunde angst en taalangst
- Predictieve validiteit: artikel Allen
- Criteriumvaliditeit: mate waarin een meetinstrument (zoals een test) iets voorspellend
(in de toekomst) of samenvallend (in het heden) kan meten.
De test wordt hierbij vergeleken met een al bestaande, algemeen aanvaarde test (de
“gouden standaard”).
Betrouwbaarheid: precisie (van de afname) van het instrument -> mate waarin scores van een
bepaalde test consistent zijn van het ene gebruik van de test tot het andere.
Manieren om betrouwbaarheid te beoordelen:
1. Interne consistentie: bij 1 testafname
a. Cronbach’s alpha
b. Mac donalds omega
2. Objectiviteit: kan door kalibratiesessie
3. Test-hertest: bij 2 testafnames
Hoe kan aan kwaliteitseisen worden voldaan? -> standaardisatie
Validiteit Transparantie Betrouwbaarheid
-> kwaliteitscontrole Documentatie van alle -> beoordeling consistenter
- Controle van inhoud en elementen van een maken
scoring instrumenten assessment programma,
- Administratieprocedures beoordelingscriteria, - Gebruikmaken van rubric
beoordelingsschema’s, (beschrijvende schaal)
Inhoudsvaliditeit beoordelingsprocedures, - Kalibratiesessie
Begripsvaliditeit doelstellingen - Adequate keuze van items,
Predictieve validiteit Inzage examinatoren en tijd van de
dag
-> studenten informatie geven
over hoe hun cijfer bepaald
wordt.
Edumetrische kwaliteitseisen
Impact: transparantie (van de afname) van het instrument:
- Wordt duidelijk uitgelegd hoe het instrument gebruikt dient te worden?
- Worden beoordelingscriteria vooraf voldoende inzichtelijk gemaakt?
- Wordt inzichtelijk gemaakt hoe de beoordeling tot stand zal komen?
Impact verbeteren: voorbeelden/instructie geven, inzage, cijferberekening verduidelijken
Utiliteit: Benodigde (tijds)investering en consequenties (van de afname) van het instrument
- Wordt de verwachte prestatie voldoende geoefend?
- Is het instrument werkbaar afgezet tegen de tijd (toets, studie, nakijk)?
- Is het besluit om iemand te laten slagen/zakken te rechtvaardigen?
- Is de gebruiker op de hoogte van en akkoord met de ethische aspecten?
Utiliteit verbeteren: weging, tweede gelegenheid
, Single Item Measures in Psychological Science - Mark S. Allen,
Dragos Iliescu, and Samuel Greiff (2022)
Single-item measures zijn natuurlijk geen goede keuze bij onderzoek dat zich richt op de breedte
van menselijke persoonlijkheid of emotie. Maar als een construct ondubbelzinnig of beperkt van
omvang is, is het niet per se ondeugdelijk.
Door toename in gebruik van grote panelonderzoeken in psychologisch onderzoek is het
belangrijk om ervoor te zorgen dat single-item measures valide en betrouwbaar zijn.
Argumenten tegen Single-item measures:
Lagere (meer onzekere) betrouwbaarheid
- Omdat single-item metingen niet kunnen worden vergeleken met overeenkomstige items
(die hetzelfde construct vastleggen), zijn zij kwetsbaarder voor meetfouten
- Spearman-Brown-profetie.
- Voor cross-sectioneel onderzoek kunnen betrouwbaarheid schattingen voor single-item-
measures niet worden berekend. Dit kan een probleem zijn voor sommige statistische
toepassingen (b.v. schatting van de standaardmeetfout voor beslissingen, ontkrachting
van correlaties).
- Bovendien zijn schattingen van de scorestabiliteit niet altijd mogelijk. Zo kan de test-
hertestbetrouwbaarheid niet worden berekend voor cognitieve en affectieve uitkomsten
waarvan wordt voorspeld dat zij in de tijd variëren (bv. emotie, stemming).
Single-item measures zijn niet in staat om tot een meer verfijnde beoordeling te komen
- Complexe psychologische constructen kunnen niet adequaat gevat worden met 1 enkel
item. Dit argument houdt verband met inhoudsvaliditeit en heeft 2 componenten:
- Voor meer gesofisticeerde constructen met multidimensionale inhoud of een
veelheid van gedragsuitingen kan 1 item het doelconstruct niet voldoende
bestrijken
- Gebrek aan antwoordcategorieën bij metingen met 1 enkel item: meerdere items
leggen meer informatie vast en maken daardoor een meer verfijnd onderscheid
tussen individuen mogelijk
- Je zou dus ook meer antwoordcategorieën op 1 item aan kunnen
brengen, maar voor betere meting hierdoor weinig bewijs
Argumenten voor Single-item measures:
Gaan vooral over nut en efficiëntie, gecombineerd met sterke aanwijzingen dat single-item
measures geldige reflecties kunnen zijn van het onderliggende construct.
Vier argumenten die van belang zijn als je het gebruik van single-item measures overweegt:
1: Ze zijn eenvoudiger in termen van administratietijd
- Daarom geschikter in omstandigheden met weinig tijd (grote panelonderzoeken)
- Geschikter voor kwetsbare bevolkingsgroepen die mogelijk niet over cognitieve of
emotionele middelen beschikken om langere testafname sessies te doorstaan.
- Ethische verplichting om tijd van deelnemers niet te verspillen
- Bereidheid van mensen vergroten om vragenlijst in te vullen
- Onderzoekers in staat stellen een groter aantal theoretische constructen in onderzoek op
te nemen