Testtheorie
Testen
We gebruiken testen om eigenschappen van mensen te meten/in kaart te brengen
(motivatie, doorzettingsvermogen enz.).
Tests (citotoets), proeven (rijtest), vragenlijsten (ziektegeschiedenis)
Verschillende vormen en afnames (papier of computer)
Wetenschappelijke benadering, we gebruiken de testen onderbouwd op basis van
wetenschappelijke literatuur.
Nut van testen
¥ Maatschappelijk
¥ Diagnose stoornissen, leer/onderwijsproblemen
Voorbeeld klaspraktijk
Freek uit groep 3 lijkt niet zo goed mee te kunnen met lezen. Zijn leerkracht heeft al
van alles geprobeerd. Niets lijkt te helpen. Wat is er aan de hand? Lage
intelligentie? Dyslexie?
¥ Counseling (schoolkeuze)
¥ Schoolvorderingen vb. Cito-leerling onderwijs volgsysteemtoetsen (LOVS)
¥ Voorspellen, plaatsing, toelating en selectie
vb Cito-eindtoets
vb centrale examens vo
Onderzoek
¥ Vergelijking tussen groepen in kaart brengen
Is er een verschil tussen jongens en meisjes wat faalangst betreft?
¥ Relatie tussen variabelen
Is er een verband tussen de mate waarin leerkrachten zich persoonlijk
verantwoordelijk voelen voor hun onderwijs en de mate waarin ze in hun klas de
focus leggen op leren of op presteren? Locus of control.
Testconstructie en kwaliteitsbepaling
Wat willen we meten en waarom?
(construct - bv. motivatie, intelligentie, ordelijkheid, schoolprestaties, enz.; doel ….) wat
willen we ermee? Het kind diagnosticeren? Niveau bepalen vervolgonderwijs?
Hoe kunnen we dit operationaliseren in vragen, opgaven, uitspraken?
Wat is de relatie tussen de delen (de vragen/items) en het geheel? (1 vraag over een
onderwerp goed, andere vraag over dit onderwerp ook?)
Kwaliteit (doel, construct, betrouwbare meting). Meten we wat willen weten en is het
betrouwbaar (meten we op verschillende momenten hetzelfde resultaat).
Historie Testtheorie in 4 perioden
1. Periode tot Binet-Simon-test
2. Binet-Simon-test – WO 1
3. WO 1 – WO 2 = interbellum
4. Begin WO 2 - heden
,Periode tot Binet-Simon-test
¥ Er werd vooral getest in de Psychiatrie. (onderzoekers probeerden aan te duiden
dat het niet ging om misdadige mensen, maar om zieke mensen). Visie: niet
opsluiten, maar kijken of je kunt behandelen.
¥ Experimentele psychologie (Wundt), Duitsland. Wundt probeerde door middel
van experimenten eigenschappen in kaart probeerde te brengen. Probleem: niet
iedere testpersoon antwoorde op dezelfde manier, dit leverde veel ruis op en
discussies met andere onderzoekers die spraken van meetfouten.
¥ Genetica (Galton)
− Individuele verschillen (geen ruis of verstoringen, maar vooruitgang van
de ontwikkeling)
− Systematisering van technieken (generalisatie conclusies naar andere
mensen, testsituaties)
− Afwijkingen van het gemiddelde (statistische testen) begin van
statistische toetsen (toeval uitsluiten van systematiek). Ook Pearson komt
in deze periode op (van de Pearson correlatie coëfficiënt), hij is niet alleen
geïnteresseerd in afwijkingen op het gemiddelde in 1 toets, maar ook of
twee toets uitslagen onderling samenhangen (correlatie).
¥ Aanloop tot ontwikkeling testtheorie, er wordt nog weinig nagedacht over
complexe vaardigheden. De wereld werd simpel voorgesteld.
Alfred Binet (directeur psychologisch laboratorium)– Tot Wo 1
Franse overheid vroeg: soms scoort een kind slechte resultaten. Wil jij een test maken
om te onderzoeken of het kind niet kan of niet wil? (gebrek aan vermogen of aan
doorzettingsvermogen)
Binet – met assistent Simon (1904) begon aan de constructie van een test:
¥ Complexe opgaven
Ý Via empirisch onderzoek -> moeilijkheidsgraad, ontdekten patronen
Ý Werken met een totaalscore, begrip mentale leeftijd
Stern bedacht de: mentale leeftijd te vergelijken met kalender leeftijd. Bijbehorende
begrippen: voorlijk (loopt voor op kalenderleeftijd) en achterlijk (loopt achter op
kalenderleeftijd).
Terman: grondlegger van de Stanford-Binet test
¥ Bijdrage van Terman aan het geheel: formuleren van standaardinstructies
(hoeveel tijd is er beschikbaar, hoe verwerken we de scores)
¥ Normen gebaseerd op representatieve streekproef -> scoreverdeling met
relatieve normen (grenzen waarboven je goed presteert enz.)
¥ Bedacht de formule: (mentale leeftijd / kalender leeftijd) x 100 = IQ
Alfred Binet – Tot Wo1
¥ Met name geïnteresseerd in het individu, net als de andere onderzoekers.
¥ In deze fase werd er nog geen gebruik gemaakt van valideringsonderzoek (meet
onze test werkelijk het begrip zoals we het willen meten) en is de test
voorspellend voor latere prestaties.
¥ Selecteren/wegen nog niet van toepassing
,WO 1 – WO 2
Door nood aan selectie van personeel voor leger WO -> testen in stroomversnelling met
als doel welke positie kan iemand in het leger innemen. Leidt tot de Army Alpha test.
Na WO 1:
¥ Europa interesse blijft op individuele diagnostiek, later ook collectief
¥ VS richt zich op groepen: collectief testen, migrantenprobleem -> niet-verbale
testen (bij instroom migranten die de taal niet spreken.)
¥ Engeland: tussenpositie tussen EU en VS, aandacht voor objectief evalueren van
schoolprestaties (opkomst Multiple Choice test).
Wat is nu interessant aan deze interbellum periode?
¥ Pragmatisch gebruik, gebruik test ging voor theorie
Dit veranderd met de komst van:
¥ Thurstone (1931):
Ý focus op betrouwbaarheid en criteriumvaliditeit –> test gedrag buiten de
testsituatie voorspellen (wat gebeurt er als ik de test op twee momenten
afneem, op zoek naar generalisatie van de test)
Ý Thurstone introduceert de Factoranalyse (nodig om de dimensionaliteit
van begrippen te onderzoeken, zoals ruimtelijke intelligentie vs. niet
ruimtelijke intelligentie of gekristalliseerde intelligentie vs. fluïde
intelligentie).
Begin WO 2 – heden
¥ Het aantal testen nam toe, aandacht voor methodologie van de testafname en
psychometrie (het betrouwbaar meten van eigenschappen).
¥ Educational Testing Service (ETS) in Princeton, Amerika – 1947 met twee
belangrijke taken:
− Evalueren van het onderwijs – onderwijskundig meten
− Fundamenteel psychometrisch onderzoek doen (hoe komt het dat
sommige testen beter zaken in kaart brengen dan anderen)
¥ NIP stelt (COmmissie TestAangelegenheden Nederland) COTAN in – 1959. Zij
bekijken tests of deze voldoen aan de basiseisen van betrouwbaarheid en
validiteit en theoretische achtergrond. COTAN is te zien als een keurmerk
instituut. Krijg je hiervan geen keurmerk, dan mag de test niet worden gebruikt.
¥ Cito werd opgericht in 1968 – door Adriaan de Groot – zodat de leerling werd
doorverwezen naar het juiste vervolgniveau op basis van toets uitslagen i.p.v. het
gevoel van de leerkracht.
− Introductie computer en adaptief toetsen (niet elk kind maakt dezelfde
toets. Beginnen met dezelfde toets van 10 vragen en worden naar gelang
de hoeveelheid juiste antwoorden toegelijd naar een wat makkelijkere of
wat moeilijkere lijst vervolgvragen). Voordelen van adaptief toetsen:
Efficiënt, je zit sneller in de buurt van het vaardigheidsniveau van het kind
dat je in kaart probeert te brengen, als je dichter in de buurt zich van het
vaardigheidsniveau van het kind wordt het automatisch ook
betrouwbaarder.
, Definitie van het begrip ‘Test’
korte versie: “een systematisch onderzoek van gedrag met behulp van speciaal
geselecteerde vragen of opgaven, met de bedoeling inzicht te krijgen in een
psychologisch kenmerk van de onderzochte in vergelijking met anderen (doet de
leerling het beter of slechter)”.
De Psychologische test
¥ Psychologische testen meten psychologische eigenschappen, zoals bijvoorbeeld
intelligentie (IQ) of persoonlijkheidsonderzoek.
¥ Psychologische eigenschappen zijn niet direct waarneembaar of meetbaar.
Nadeel: niet zoals een lengte direct te zien.
Daarom construeren we indicatoren (items) die gedrag oproepen dat iets zegt
over het te meten construct (bijv. intelligentie).
Voorbeelden van items om ouderdom te meten als je het niet kan vragen:
1. Ik doe overdag vaak een dutje (ja/nee)
2. Ik ben af en toe vergeetachtig (ja/nee)
3. Ik heb soms moeite om ‘s morgens op te staan (ja/nee)
Stel testdeelnemers scoren 3x ja, dan is de kans groot dat de testpersoon wat ouder is.
Hoe betrouwbaar is dit?
Deze items hebben waarschijnlijk wel iets met ouderdom te maken, maar het zijn
geen perfecte indicatoren.
¥ Jonge mensen doen ook wel eens een dutje overdag (b.v. in de collegezaal na
een avondje stappen).
¥ Omslachtig om op zo’n manier ouderdom te meten, maar het principe komt
overeen met hoe we psychologische eigenschappen meten.
Belangrijk: Psychologische tests worden alleen afgenomen wanneer je geen goed beeld
hebt van een persoon. Een test is een hulpmiddel, dus pas op voor het verabsoluteren
van testscores. Een psycholoog dient met behulp van de test tot een oordeel te komen,
op basis van een combinatie van verschillende waarnemingen. Dus vertrouw niet blind
op een enkele testuitslag. Dit is bijvoorbeeld een gevaar met testen op internet.
6 kenmerken van een goede test:
1. Betrouwbaarheid
2. Objectiviteit
3. Standaardisatie
4. Validiteit
5. Efficiëntie
6. Normering
-> Te onthouden als: bosven.
1. Betrouwbaarheid
Een test is betrouwbaar als bij herhaalde metingen (ongeveer) dezelfde score behaald
wordt.
2. Objectiviteit
Een test is objectief als het niet uitmaakt wie test afneemt/wie de beoordelaar is.