Testtheorie
College 1
Testen
Meten van eigenschappen van mensen
Tests, proeven, vragenlijsten
Verschillende vormen en afnames
Wetenschappelijke benadering
Nut van testen
Onderscheid, vergelijking, beschrijving
Maatschappelijk
§ Diagnose stoornissen, leer/onderwijsproblemen
- Voorbeeld klaspraktijk
- Freek uit groep 3 lijkt niet zo goed mee te kunnen met lezen. Zijn
leerkracht heeft al van alles geprobeerd. Niets lijkt te helpen. Wat is er
aan de hand? Lage intelligentie? Dyslexie?
§ Schoolvorderingen
§ Voorspellen, plaatsing, toelating en selectie
§ ….
Onderzoek
- Vergelijking tussen groepen
- Is er een verschil tussen jongens en meisjes wat faalangst betreft?
§ Relatie tussen variabelen
- Is er een verband tussen de mate waarin leerkrachten zich persoonlijk
verantwoordelijk voelen voor hun onderwijs en de mate waarin ze in
hun klas de focus leggen op leren of op presteren?
Testconstructie en kwaliteitsbepaling
- Wat willen we meten en waarom?
§ (construct - bv. motivatie, intelligentie, ordelijkheid, schoolprestaties, enz.; doel ….) iets wat
een beetje vager is, niet precies te meten is.
§ Hoe kunnen we dit operationaliseren in vragen, opgaven, uitspraken?
- Wat is de relatie tussen de delen (de vragen/items) en het geheel?
- Kwaliteit (doel, construct, betrouwbare meting)
Historie testtheorie
Periode tot Binet-Simon-test
- Psychiatrie
- Experimentele psychologie
- Genetica (Galton)
› Wenselijkheid individuele verschillen
› Systematisering van technieken (generalisatie conclusies)
› Afwijkingen van het gemiddelde (statistische testen)
- Aanloop tot ontwikkeling testtheorie, weinig complexe vaardigheden
, Binet-Simon-test – WO 1
WO 1 – WO 2
Begin WO 2 - heden
Periode tot Binet-Simon-test
Stimulans om testen te ontwikkelen kwam uit de psychiatrie in Duitsland en Frankrijk. Toen
een Franse arts mensen uit kerkers had bevrijd, met als argument dat de mensen geen
misdadigers waren maar ziek, toen ontstond er in de Franse medische wereld een sterke
interesse in de geestelijke abnormaliteit. Er werd onderscheid gemaakt tussen
krankzinnigheid en zwakzinnigheid. Een andere Franse arts Seguin besloot toen zwakzinnige
kinderen te trainen. Hij richtte zich vooral op het trainen van motorische en sensorische
functies. Dit werd uiteindelijk de ‘performance test’. Deze test werd later ook gepubliceerd.
Binnen de psychiatrie ging het onderzoek naar geestelijke onvolwaardigheden door.
Verschillende onderzoekers hebben methoden bedacht om o.a. chronische vermoeidheid en
krankzinnigheid te meten. Hierdoor nam de interesse om nieuwe methodes te ontwikkelen
om bijv. ook verschillen in ziektes en gradaties vast te stellen.,
Dan hebben we ook de experimentele psychologie, vooral in Duitsland. Dit heeft zowel een
stimulerende als een remmende werking op de testpsychologie gehad.
De stimulans was het exact beschrijven van het experiment, dus ook de variabelen en de
nauwkeurige verwerking van uitkomsten. Dat laatste was ook de remmende factor.
De experimentator vond de verschillen tussen de proefpersonen eerder vervelend dan
interessant. Hij schreef ze toe aan fouten in het experiment ipv verschillen in vaardigheden
vd proefpersonen.
En het vaststellen van verschillen tussen mensen is nou net waar het in testen om te doen is.
Toen ging professor Wundt professioneler aan de slag. Hij onderzocht met een systematisch
experimenteel onderzoek verschillende functies van de mens.
Er waren twee dingen die de ontwikkeling van testen in de weg stond. De eerste was, net als
voorheen, dat verschillen tussen mensen werden gezien als experimentele fouten. De
tweede was het feit dat hij alleen sensorische en motorische functies onderzocht, en niet de
‘hogere’ functies zoals cognitieve processen.
Meneer Catell promoveerde onder Wundt en hij deed juist onderzoek naar individuele
verschillen. Naast psychiatrie en experimentele psychologie heeft ook genetica een rol
gespeeld in het ontstaan van testen.
Meneer Galton was geïnteresseerd in de erfelijkheid van psychische eigenschappen. In zijn
wijze van onderzoeken kwamen drie elementen voor. De eerste was wenselijkheid van
individuele verschillen.
De tweede was de systematisering van onderzoekstechnieken. Zonder gestandaardiseerde
condities en gedisciplineerd gebruik van testen kunnen conclusies niet gegeneraliseerd
worden. De derde was afwijkingen van het gemiddelde. Het weergeven van onderzoek in
statistische termen bleken geheel nieuwe dimensie te openen van zowel de theoretische
ontwikkeling als de praktische toepassing van een test.
Er werd onderzoek gedaan naar motorische en sensorische vermogens, maar nog niet naar
meer complexe intelligentiefuncties.
,Binet-Simon-test WO1
- Binet – Simon (1904):
§ Complexe opgaven
§ Via empirisch onderzoek -> moeilijkheidsgraad
§ Werken met een totaalscore, begrip mentale leeftijd
- Terman: Stanford-Binet
§ Formuleren van standaardinstructies
§ Normen gebaseerd op representatieve streekproef
- Stern: [mentale lft / kalender lft] x 100 = IQ
Binet kreeg de opgave van het ministerie om onderzoek te doen naar het onderscheid
tussen luie en incapabele kinderen. De bestaande tests konden dat nog niet.
Toen kwam Binet samen met zijn collega Simon op het idee om 30 complexe opgaven
bedachten die betrekking hadden op wat een kind in het dagelijks leven en in de
schoolpraktijk tegen kwam.
Bijvoorbeeld het benoemen van objecten, het aanvullen van onvolledige zinnen. Eigenlijk
was dit de eerste intelligentietest.
Wat waren de verschillen met andere testen: ze deden beroep op complexe processen, zoals
begrip, geheugen, probleemoplossend vermogen.
Daarnaast was hij bereid zijn toetsopgaven te toetsen aan de empirie. Opgaven die niet naar
behoren functioneerden, werden bijvoorbeeld verwijderd.
Ten derde stelde hij voor om met een totaalscore te werken om het intelligentieniveau weer
te geven.
Er was een hoogleraar Terman en die onderzocht de Amerikaanse versies van deze test. De
test werd omgedoopt naar Stanford-Binet.
Er was aan twee zeer belangrijke testtechnische eisen voldaan: Er waren
standaardinstructies geformuleerd en er werden normen geconstructueerd, gebaseerd op
een representatieve steekproef.
Ook nam Terman het idee van Stern over om de mentale leeftijd te delen door de
kalenderleeftijd en te vermenigvuldigen met 100. Je kreeg hierdoor vergelijkbare en
praktische indicaties van het IQ van een kind.
Binet – Tot WO1
Alleen individu
Geen valideringsonderzoek
§ Samenhang tests met latere prestaties
§ Selecteren/wegen nog niet van toepassing
De test richtte zich alleen op individuen, er werd nog niet op grote schaal, bijvoorbeeld in
klassen, testen afgenomen.
Er was zeker nog geen sprake van valideringsonderzoek. Er werd nog niet gekeken naar de
samenhang van uitslagen met latere prestaties. En waarbij men op basis daarvan weegt en
selecteert was voor de eerste wereldoorlog nog geen sprake.
, WO1-WO2
Door nood aan selectie van personeel voor leger WO -> testen in stroomversnelling
Na WO 1:
§ Europa: individuele diagnostiek, later ook collectief
§ VS: collectief testen, migrantenprobleem -> niet-verbale testen
Engeland: tussenpositie, aandacht voor objectief evalueren van schoolprestaties (MC
test)
Gebruik test ging voor theorie
Thurstone (1931): focus op betrouwbaarheid en criterium validiteit – test gedrag buiten
de testsituatie voorspellen.
Tijdens de eerste wereldoorlog kwam de ontwikkeling van testen in een stroomversnelling
doordat er mensen geselecteerd moesten worden voor het leger.
Er kwamen meer testen die je groepsgewijs af kon nemen want individueel testen is zeer
tijdrovend.
Na de eerst wereld oorlog liepen de testontwikkeling in Amerika en Europa sterk uiteen. In
Europa was de individuele diagnostiek populair. Hoe iemand redeneerde was net zo
interessant als de prestatie.
Daarom werden er ook observatietests ontwikkeld.
In Amerika waren ze meer gericht op de praktische behoefte. Er werden steeds meer
collectieve testen ontwikkeld. Ook was er migrantenproblematiek, waardoor de vraag naar
niet-verbale testen toenam.
Engeland nam een tussenpositie in en richtte zich vooral op de evaluatie van
schoolprestaties. Het vrije-antwoordenexamen maakte plaats van de multiple choice vragen
Het gebruik van de test ging vaak vooraf aan de theorie, ipv omgekeerd.
Thurstone vond de evaluatie van de test heel belangrijk. De resultaten moesten wel
betrouwbaar zijn. Als men met een test gedrag buiten de testsituatie probeerde te
voorspellen, ook wel criteriumgedrag genoemd, dient de relatie tussen test en criterium van
te voren te zijn aangetoond. De statistiek kwam om de hoek kijken en daarmee ook de
factoranalyse.