Testtheorie
Testen
We gebruiken testen om eigenschappen van mensen te meten/in kaart te brengen
(motivatie, doorzettingsvermogen enz.).
Tests (citotoets), proeven (rijtest), vragenlijsten (ziektegeschiedenis)
Verschillende vormen en afnames (papier of computer)
Wetenschappelijke benadering, we gebruiken de testen onderbouwd op basis van
wetenschappelijke literatuur.
Nut van testen
• Maatschappelijk
• Diagnose stoornissen, leer/onderwijsproblemen
Voorbeeld klaspraktijk
Freek uit groep 3 lijkt niet zo goed mee te kunnen met lezen. Zijn leerkracht heeft al
van alles geprobeerd. Niets lijkt te helpen. Wat is er aan de hand? Lage
intelligentie? Dyslexie?
• Counseling (schoolkeuze)
• Schoolvorderingen vb. Cito-leerling onderwijs volgsysteemtoetsen (LOVS)
• Voorspellen, plaatsing, toelating en selectie
vb Cito-eindtoets
vb centrale examens vo
Onderzoek
• Vergelijking tussen groepen in kaart brengen
Is er een verschil tussen jongens en meisjes wat faalangst betreft?
• Relatie tussen variabelen
Is er een verband tussen de mate waarin leerkrachten zich persoonlijk
verantwoordelijk voelen voor hun onderwijs en de mate waarin ze in hun klas de
focus leggen op leren of op presteren? Locus of control.
Testconstructie en kwaliteitsbepaling
Wat willen we meten en waarom?
(construct - bv. motivatie, intelligentie, ordelijkheid, schoolprestaties, enz.; doel ….) wat
willen we ermee? Het kind diagnosticeren? Niveau bepalen vervolgonderwijs?
Hoe kunnen we dit operationaliseren in vragen, opgaven, uitspraken?
Wat is de relatie tussen de delen (de vragen/items) en het geheel? (1 vraag over een
onderwerp goed, andere vraag over dit onderwerp ook?)
Kwaliteit (doel, construct, betrouwbare meting). Meten we wat willen weten en is het
betrouwbaar (meten we op verschillende momenten hetzelfde resultaat).
Historie Testtheorie in 4 perioden
1. Periode tot Binet-Simon-test
2. Binet-Simon-test – WO 1
3. WO 1 – WO 2 = interbellum
4. Begin WO 2 - heden
,Periode tot Binet-Simon-test
• Er werd vooral getest in de Psychiatrie. (onderzoekers probeerden aan te duiden
dat het niet ging om misdadige mensen, maar om zieke mensen). Visie: niet
opsluiten, maar kijken of je kunt behandelen.
• Experimentele psychologie (Wundt), Duitsland. Wundt probeerde door middel
van experimenten eigenschappen in kaart probeerde te brengen. Probleem: niet
iedere testpersoon antwoorde op dezelfde manier, dit leverde veel ruis op en
discussies met andere onderzoekers die spraken van meetfouten.
• Genetica (Galton)
− Individuele verschillen (geen ruis of verstoringen, maar vooruitgang van
de ontwikkeling)
− Systematisering van technieken (generalisatie conclusies naar andere
mensen, testsituaties)
− Afwijkingen van het gemiddelde (statistische testen) begin van
statistische toetsen (toeval uitsluiten van systematiek). Ook Pearson komt
in deze periode op (van de Pearson correlatie coëfficiënt), hij is niet alleen
geïnteresseerd in afwijkingen op het gemiddelde in 1 toets, maar ook of
twee toets uitslagen onderling samenhangen (correlatie).
• Aanloop tot ontwikkeling testtheorie, er wordt nog weinig nagedacht over
complexe vaardigheden. De wereld werd simpel voorgesteld.
Alfred Binet (directeur psychologisch laboratorium)– Tot Wo 1
Franse overheid vroeg: soms scoort een kind slechte resultaten. Wil jij een test maken
om te onderzoeken of het kind niet kan of niet wil? (gebrek aan vermogen of aan
doorzettingsvermogen)
Binet – met assistent Simon (1904) begon aan de constructie van een test:
• Complexe opgaven
› Via empirisch onderzoek -> moeilijkheidsgraad, ontdekten patronen
› Werken met een totaalscore, begrip mentale leeftijd
Stern bedacht de: mentale leeftijd te vergelijken met kalender leeftijd. Bijbehorende
begrippen: voorlijk (loopt voor op kalenderleeftijd) en achterlijk (loopt achter op
kalenderleeftijd).
Terman: grondlegger van de Stanford-Binet test
• Bijdrage van Terman aan het geheel: formuleren van standaardinstructies
(hoeveel tijd is er beschikbaar, hoe verwerken we de scores)
• Normen gebaseerd op representatieve streekproef -> scoreverdeling met
relatieve normen (grenzen waarboven je goed presteert enz.)
• Bedacht de formule: (mentale leeftijd / kalender leeftijd) x 100 = IQ
Alfred Binet – Tot Wo1
• Met name geïnteresseerd in het individu, net als de andere onderzoekers.
• In deze fase werd er nog geen gebruik gemaakt van valideringsonderzoek (meet
onze test werkelijk het begrip zoals we het willen meten) en is de test
voorspellend voor latere prestaties.
• Selecteren/wegen nog niet van toepassing
, WO 1 – WO 2
Door nood aan selectie van personeel voor leger WO -> testen in stroomversnelling met
als doel welke positie kan iemand in het leger innemen. Leidt tot de Army Alpha test.
Na WO 1:
• Europa interesse blijft op individuele diagnostiek, later ook collectief
• VS richt zich op groepen: collectief testen, migrantenprobleem -> niet-verbale
testen (bij instroom migranten die de taal niet spreken.)
• Engeland: tussenpositie tussen EU en VS, aandacht voor objectief evalueren van
schoolprestaties (opkomst Multiple Choice test).
Wat is nu interessant aan deze interbellum periode?
• Pragmatisch gebruik, gebruik test ging voor theorie
Dit veranderd met de komst van:
• Thurstone (1931):
› focus op betrouwbaarheid en criteriumvaliditeit –> test gedrag buiten de
testsituatie voorspellen (wat gebeurt er als ik de test op twee momenten
afneem, op zoek naar generalisatie van de test)
› Thurstone introduceert de Factoranalyse (nodig om de dimensionaliteit
van begrippen te onderzoeken, zoals ruimtelijke intelligentie vs. niet
ruimtelijke intelligentie of gekristalliseerde intelligentie vs. fluïde
intelligentie).
Begin WO 2 – heden
• Het aantal testen nam toe, aandacht voor methodologie van de testafname en
psychometrie (het betrouwbaar meten van eigenschappen).
• Educational Testing Service (ETS) in Princeton, Amerika – 1947 met twee
belangrijke taken:
− Evalueren van het onderwijs – onderwijskundig meten
− Fundamenteel psychometrisch onderzoek doen (hoe komt het dat
sommige testen beter zaken in kaart brengen dan anderen)
• NIP stelt (COmmissie TestAangelegenheden Nederland) COTAN in – 1959. Zij
bekijken tests of deze voldoen aan de basiseisen van betrouwbaarheid en
validiteit en theoretische achtergrond. COTAN is te zien als een keurmerk
instituut. Krijg je hiervan geen keurmerk, dan mag de test niet worden gebruikt.
• Cito werd opgericht in 1968 – door Adriaan de Groot – zodat de leerling werd
doorverwezen naar het juiste vervolgniveau op basis van toets uitslagen i.p.v. het
gevoel van de leerkracht.
− Introductie computer en adaptief toetsen (niet elk kind maakt dezelfde
toets. Beginnen met dezelfde toets van 10 vragen en worden naar gelang
de hoeveelheid juiste antwoorden toegelijd naar een wat makkelijkere of
wat moeilijkere lijst vervolgvragen). Voordelen van adaptief toetsen:
Efficiënt, je zit sneller in de buurt van het vaardigheidsniveau van het kind
dat je in kaart probeert te brengen, als je dichter in de buurt zich van het
vaardigheidsniveau van het kind wordt het automatisch ook
betrouwbaarder.