Week 5: Constructie assessmentinstrumenten
Hoorcollege week 5 - Constructie van assessmentinstrumenten
Wat is een toets (of test)?
- Een manier om informatie te verzamelen
- Met een bepaald doel (anders beter niet afnemen)
- Verzamelde informatie is een representatie van gezochte informatie: je hoopt te meten
wat je wil weten om in de buurt te komen van hetgeen het geval is bij de betreffende
persoon
- Tussen testafnemer en geteste bestaat een machtsverschil
- Toets of test: in principe weinig/geen verschil
Mogelijk oneerlijk:
De verwachtingen, vragen, gegeven tijd, omstandigheden, beoordeling, normering, gevolgen (het
kan nogal bepalend zijn).
- In onze cultuur vrij normaal dat we allemaal op dezelfde manier getoetst worden, maar
tegelijkertijd kun je je afvragen of dat wel eerlijk is
- Voorbeeld: Slimste mens: nogal afhankelijk van waar je zit, als degene voor jou
heel goed of juist slecht is, is dat nogal bepalend
We leven in een toetscultuur:
- Begin jaren 60: vijven en zessen (A.D. de Groot): impact van toetsen op mensen
- Kind kijkt af en krijgt een 1, blijft dan zitten. Is dat eerlijk?
- Als we geen toets hebben, hebben we ‘voor niets geleerd’.
- Normering ook deel van onze toetscultuur
High-stakes ‘standardized’ toetsen: vliegverkeer in het land stilgelegd omdat er toetsen
afgenomen worden.
Howard et al. (2017)
Wat zijn gestandaardiseerde geletterdheid en rekenvaardigheden toetsen aan het toetsen?
Toetsen ze wel wat ze moeten toetsen? Howard et al. (2017) schrijven over bewijs van de
domein-generieke bijdragen aan toetsprestaties van studenten op gestandaardiseerde onderwijs
toetsen.
Zijn gestandaardiseerde toetsen wel ‘puur’? Wat meten ze eigenlijk?
Context: Autralisch National Assessment Program - literatuur en geletterdheid (NAPLAN)
Analyse wijst uit: NAPLAN-prestatie afhankelijk van meer dan geletterdheid en rekenvaardigheid
(bijvoorbeeld werkgeheugen).
Negatieve gevolgen mogelijk: daarom bijvoorbeeld trainen van verkeerde vaardigheid om score
te verhogen.
Dus: toetsen doen ertoe. Maar wat maakt een toets ‘goed’?
Validiteit is nooit een ‘gegeven’: een goed item vandaag, kan morgen een slecht item zijn (want
afhankelijk van groep, omstandigheden, toeval).
,Toets maken kan moeilijk zijn (model van Casper):
- Algemene vraag: praktische (toets-)vraag
- Hiervoor een theorie nodig en een
construct dat je operationaliseert
- Dit alles leidt tot bepaalde toetsitems
Een toets maken kan gemakkelijk zijn:
Heeft een test altijd meer dan 1 item nodig?
Onderzoek: is dit een cirkel?
Als je het geen cirkel vindt, denk je conservatief.
Want conservatieve mensen zijn gevoeliger voor dingen die afwijken.
Ook als er 8 items zijn, is het niet gewoon 1 vraag die ze
stellen? Met allemaal varianten op die ene vraag o.i.d. ->
Typen toetsinstrumenten
- Kennistoets - open of gesloten
, - Als onderdeel van een competentie-assessment (“proeve van bekwaamheid”).
- Toetsvorm lokt altijd een bepaalde antwoordstrategie uit.
- Gestelde eisen vooraf lokken strategisch gedrag uit
(bijvoorbeeld bij een rubric)
- MC en open-vraag strategieën.
- Dus vraag je af wat voor gedrag je uit wil lokken.
- Wat als je mensen wel antwoorden geeft, maar geen vragen?
Basis voor toetsconstructie: toetsplan en toetsmatrijs
Beide belangrijk bij toetsontwikkeling
Toetsplan:
- Globaal overzicht: beschrijft algemene doelen en procedures van
een toets
- Doelgroep, onderwerpen, type toets, beoordelingscriteria
Toetsmatrijs:
- Beschrijft inhoud en structuur van een toets
- Onderwerpen, aantal vragen per onderwerp, niveaus van cognitieve verwerking
(herinneren, begrip, toepassen)
- Leerdoelen x beheersingsniveau
- Of Inhouscategorieën x gedragscategorieën (enzovoort)
- Helpt bij het waarborgen van inhoudsvaliditeit
Kruisjes zetten en weging bepalen enzo.
Construeren van testitems
- Items bepalen de kwaliteit van een test: test kan niet beter zijn dan de items waaruit hij
bestaat
- Schrijven van goede testitems is een kunst (voorbeeld, quizvragen)
- Grootste uitdaging: vermijden ambiguïteit en ‘nut’ test-wiseness
- Ambiguïteit: hoe kun je een vraag interpreteren
Test-wiseness (Millman & Bishop):
Principes:
- Onafhankelijkheid van de specifieke test
- Indelen van de tijd
- Vermijden van fouten
- Raden van antwoord
- Deductief (of handig) redeneren i.p.v. weten van het juiste antwoord
- Afhankelijk van de specifieke test
- Afleiden van intentie testmaker
- Hints uit de items (vragen en afleiders) halen
Soorten items
- Kort antwoord (1 woord/term)
- Associatie
- ‘Completion’ vragen
- Waar-onwaar
- Waar-onwaar, ja-nee, correct-incorrect, correctie, meerdere waar-onwaar, ja-nee
met uitleg, etc.
- MC
- tweekeuze-vraag (dichotome items)
- optimaal aantal alternatieven: 3
, - Goed, beste, meerdere antwoorden, ‘completion’, negatieve vraag, substitutie,
incompleet alternatief, gecombineerd antwoord (volgorde)
Meerkeuze-items
Voordelen:
- Makkelijk af te nemen en te verwerken
- Objectieve scoringsmethode
- Groter bereik meting kennisdomein mogelijk
- Mits goed geconstrueerd kun je er bijna alles mee meten
Nadelig:
- Gemakkelijk oppervlakkig
- Gemakkelijke schijnobjectiviteit
Butler:
MC toetsen in onderwijs: zijn de best practices voor beoordeling ook goed voor leren?
Terugkerend thema: beoordeling voor leren versus beoordelen van leren
- Doelen soms tegenstrijdig:
- ‘of learning’: onderscheidend vermogen, betrouwbaarheid
- ‘for learning’: kennis die beklijft, transfer van kennis
Richtlijnen voor constructie MC vragen, komen voort uit theorie over cognitive load en desirable
difficulties:
1. Vermijden van complexe item types of antwoord procedures
2. Creëer items die betrokkenheid van specifieke cognitieve processen vereisen
3. Vermijdt gebruik van ‘none-of-the-above’ en ‘all-of-the-above’ als antwoordopties
a. Vooral NOTA vermijden, want dan lezen ze allemaal stof die onwaar is
4. Gebruik drie plausibele antwoordopties
5. Creëer MC testen die uitdagend, maar niet te moeilijk zijn
6. Geef feedback
Beoordelen van items
Subjectieve criteria:
- Leesbaarheid, ambiguïteit: hoe interpreteert de afnemer/het collectief het?
- Aansluiting op de toetsmatrijs: sluit de vraag ergens bij aan?
- Antwoordalternatieven: moet niet zo zijn dat een item zo gek is dat het logisch fout is
- Test wiseness-proof? Kun je er op een bepaalde manier mee om gaan?
- Langste items vaak goed
Objectieve criteria:
- Itemmoeilijkheid: p-waarde: proportie correct
- Rir en Rit-waarden (item-restcorrelatie)
- Bij hoog, representeert een hoge waarde ook echt dat iemand de toets goed heeft
gemaakt. Je wil niet dat deze negatief is
- Antwoordpatronen: is een goed antwoord het meest gegeven of eerder een fout antwoord
het meest gegeven
- Antwoordpatronen en verdeling alternatieven (bij MC): wordt een optie helemaal nooit
gekozen, zegt dat ook wel weer wat.
Specificiteit
Waarom is het nuttig om met een lijst criteria te werken bij de assessment van competenties? (is
te open)
of