Aantekeningen – Testtheorie
College 1: Inleiding – H1, H2 & H3
H1: Historische ontwikkeling
Periode tot het verschijnen van de Binet-Simon-test (ca. 1879)
De stimulans om te gaan testen, ontwikkelde zich vanuit de psychiatrie in Duitsland en Frankrijk.
Toen een Franse arts (Pinel) krankzinnigen had bevrijd uit kerkers, met als argument dat ze geen
misdadigers zijn maar ziek, ontstond er in de Franse medische wereld een sterke interesse in de
geestelijke abnormaliteit en zwakzinnigheid. Er was behoefte aan het kunnen indelen van mensen in
hokjes. Er werd onderscheid gemaakt tussen krankzinnigheid en zwakzinnigheid. Een Franse arts
(Séguin) besloot zwakzinnige kinderen te trainen, waarbij de focus lag op het trainen van motorische
en sensorische functies. Hierdoor ontstond de performance test.
Vooral in Duitsland zagen we de experimentele psychologie, die zowel een stimulerende als
remmende werking op de testpsychologie had. De stimulans was het exact beschrijven van het
experiment, dus ook de variabelen en de nauwkeurige verwerking van uitkomsten. Dat laatste was
ook de remmende factor. De experimentator vond de verschillen tussen de proefpersonen eerder
vervelend dan interessant. Hij schreef ze toe aan fouten in het experiment in plaats van verschillen in
vaardigheden van de proefpersonen. Het vaststellen van verschillen tussen mensen is nou net waar
het in testen om te doen is.
In 1879 stichtte Wundt in Leipzig zijn experimentele laboratorium, wat de start was van het
systematische experimentele onderzoek. Maar ook hier waren er twee dingen die de ontwikkeling
van testen in de weg stond:
1) De eerste was, net als voorheen, dat verschillen tussen mensen werden gezien als
experimentele fouten.
2) De tweede was het feit dat hij alleen sensorische en motorische functies onderzocht, en niet de
‘hogere’ functies zoals cognitieve processen.
Meneer Cattell promoveerde onder Wundt en hij deed juist onderzoek naar individuele verschillen.
Naast psychiatrie en experimentele psychologie heeft ook genetica een rol gespeeld in het ontstaan
van testen. Meneer Galton was geïnteresseerd in de erfelijkheid van psychische eigenschappen. In
zijn wijze van onderzoeken kwamen drie elementen voor:
- De eerste was wenselijkheid van individuele verschillen.
- De tweede was de systematisering van onderzoekstechnieken. Zonder gestandaardiseerde
condities en gedisciplineerd gebruik van testen kunnen conclusies niet gegeneraliseerd worden.
- De derde was afwijkingen van het gemiddelde.
Het weergeven van onderzoek in statistische termen bleken geheel nieuwe dimensie te openen van
zowel de theoretische ontwikkeling als de praktische toepassing van een test.
Deze eerste periode werd dus gekenmerkt door de behoefte van de psychiatrie aan
diagnosemogelijkheden met betrekking tot aard en niveau van geestelijke afwijkingen, de traditie
van de experimentele psychologie betreffende de gestandaardiseerde onderzoeksprocedure en de
interesse van de genetica in verschillen tussen mensen.
Periode tussen het verschijnen van de Binet-Simon-test en WOI
In 1904 kreeg Binet de opgave van het ministerie van Onderwijszaken om onderzoek te doen naar
het onderscheid tussen luie en incapabele kinderen. De bestaande tests konden dat nog niet,
doordat er daarbij gekeken werd naar simpelere vaardigheden. Toen kwam Binet samen met zijn
medewerker Simon op het idee om 30 complexe opgaven bedachten die betrekking hadden op wat
een kind in het dagelijks leven en in de schoolpraktijk tegen kwam. Bijvoorbeeld het benoemen van
objecten, het aanvullen van onvolledige zinnen en het begrijpen van verhaaltjes. Eigenlijk was dit de
eerste intelligentietest.
1
,Wat waren de verschillen met andere testen? Wat was nieuw?:
- Ze deden beroep op complexe mentale processen, zoals begrip, geheugen, probleemoplossend
vermogen en verbeeldingskracht
- Daarnaast was hij bereid zijn toetsopgaven te toetsen aan de empirie. Opgaven die niet naar
behoren functioneerden, werden verwijderd of gewijzigd. Zo ontstonden er moeilijkheidsgraden.
- Ten derde stelde hij voor om met een totaalscore te werken om het intelligentieniveau en de
mentale leeftijd weer te geven.
Er was een hoogleraar Terman, die de Amerikaanse versies van deze test onderzocht. De test werd
omgedoopt naar Stanford-Binet. Hierbij werd er aan twee zeer belangrijke testtechnische eisen
voldaan:
1. Er waren standaardinstructies geformuleerd
2. Er waren normen geconstructureerd, die gebaseerd waren op een representatieve steekproef
Ook nam Terman het idee van Stern over om de mentale leeftijd te delen door de kalenderleeftijd en
mentale leeftijd
te vermenigvuldigen met 100 (> IQ = * 100). Je kreeg hierdoor vergelijkbare en
kalender leeftijd
praktische indicaties van het IQ van een kind.
De toetsen waren met name gericht op het individu en niet op groepen. Daarnaast was er geen
valideringsonderzoek. Er was dus geen samenhang tussen tests met latere prestaties (voorspellende
waarde) en het selecteren/wegen was nog niet van toepassing (bijv. heeft de persoon het tentamen
gehaald of nemen we deze persoon aan).
Periode van het begin van WOI tot WOII
Tijdens de Eerste Wereldoorlog kwam de ontwikkeling van testen in een stroomversnelling, doordat
er mensen geselecteerd moesten worden voor het leger. Er kwamen meer testen die je groepsgewijs
af kon nemen, want individueel testen is zeer tijdrovend. De uit noodzaak ontstane test, de Army
Alpha, bevatte rekenopgaven, denksommen en het aangeven van woordbetekenissen. In vrij korte
tijd kon men het intelligentieniveau van grote groepen proefpersonen bepalen.
Na de Eerst Wereldoorlog liepen de testontwikkeling in Amerika en Europa sterk uiteen. In Europa
was de individuele diagnostiek populair. Hoe iemand redeneerde was net zo interessant als de
prestatie. Daarom werden er ook observatietests ontwikkeld. In Amerika waren ze meer gericht op
de praktische behoefte. Het bepalen van de kansen van het individu op een positief resultaat in de te
voorspellen situatie stond centraal. Er werden steeds meer collectieve testen ontwikkeld. Ook was er
immigrantenproblematiek, waardoor de vraag naar niet-verbale testen toenam.
Engeland nam een tussenpositie in en richtte zich vooral op de objectieve evaluatie van
schoolprestaties. Daarnaast maakte het vrije-antwoordenexamen plaats voor de
meerkeuzevragen (MC-test).
Het gebruik van de test ging vaak vooraf aan de theorie. Thurstone stimuleerde de aandacht voor de
kritische evaluatie van de test zelf. Hij was van mening dat de resultaten van een test betrouwbare
testscores dienen op te leveren en als men met een test gedrag buiten de testsituatie probeert te
voorspellen, dient de relatie tussen test en criterium van tevoren te zijn aangetoond.
Betrouwbaarheid en validiteit kregen dus steeds meer aandacht, waardoor de statistiek om de hoek
kwam kijken en daarmee ook de factoranalyse.
Periode van het begin van WOII tot het heden
Met het begin van de Tweede Wereldoorlog kwamen er weer tests bij en was er ook aandacht voor
de methodologie en correct testgebruik.
In 1947 werd de Educational Testing Service opgericht in Amerika. De bedoeling was om in
samenwerking met psychologen en statistici het onderwijs te evalueren. Er wordt niet langer enkel
2
,gekeken naar de achtergrond van de ouders voor de bepaling van het IQ. Er werd hierbij naast
toegepast onderzoek ook veel aan fundamenteel psychometrisch onderzoek gedaan.
Een andere oorzaak van de versnelde testontwikkeling is de verwerking van testgegevens door
middel van de computer. Er worden nu ook testen afgenomen via de computer.
H2: Definitie, kenmerken en toepassingen van de test
Een psychologische test is een systematisch onderzoek van gedrag met behulp van speciaal
geselecteerde vragen of opgaven, met de bedoeling inzicht te krijgen in een psychologisch/cognitief
kenmerk van de onderzochte in vergelijking met anderen (referentiegroep).
Het doel van testonderzoek is om een uitspraak te doen die een voorspelling, onderscheid,
vergelijking, classificatie of beschrijving met betrekking tot het onderzochte individu omvat.
o Is er een verschil tussen jongens en meisjes wat betreft faalangst?
o Is er een verband tussen de mate waarin leerkrachten zich persoonlijk verantwoordelijk voelen
voor hun onderwijs en de mate waarin ze in hun klas de focus leggen op leren of op presteren?
Er zijn 6 kenmerken van een psychologische test die zorgen voor een voordeel ten opzichte van het
voorwetenschappelijk oordeel:
1) Efficiëntie > Men is niet afhankelijk van het min of meer toevallig beschikbaar zijn van
gelegenheden waarin bepaald gedrag zich voordoet. Er zijn relevante opgaven verzameld of
geconstrueerd die een beroep doen op het construct dat je wilt meten, zoveel mogelijk zonder
andere storende factoren.
2) Standaardisatie > De testprestatie van een individu kan vergeleken worden met die van
anderen, doordat de procedure, het testmateriaal, de instructie en verwerking zoveel mogelijk
hetzelfde is voor iedereen. Hiervoor dienen wel alle onderdelen zo gedetailleerd mogelijk
beschreven te worden.
3) Normering > Om te bepalen of iemand een hoge of lage score heeft, heb je een maatstaf (norm)
nodig. Exactheid stelt de onderzoeker in staat om kleine verschillen vast te kunnen stellen.
4) Objectiviteit > Het proces van het registreren en verwerken van het testgedrag van de
onderzochte tot score, beoordelingscriteria of classificatie, is onafhankelijk van aan de testleider
gebonden invloeden. De mate van overeenstemming tussen twee of meer beoordelaars
(interbeoordelaarsbetrouwbaarheid) is een indicatie voor deze objectiviteit.
P 0−Pe
K=
1−Pe
- P0 = Proportie geobserveerde overeenstemming
- Pe = Proportie verwachtte overeenstemming
3
, 5) Betrouwbaarheid > Je wilt zo min mogelijk meetfouten/toevalligheden, zodat het niet uitmaakt
wanneer iemand getest wordt. De meetresultaten zijn hierdoor herhaalbaar en consequent.
6) Validiteit > Je meet wat je beoogt te meten, waardoor er geen verschil van mening mogelijk is
over de interpretatie en de betekenis van de testprestatie.
Meetniveaus
- Nominaal (labels/naamgeving): Iemand die een 3 heeft gescoord heeft anders gescoord dan
iemand met een 6. Dit meetniveau heeft geen ‘hoog’ en ‘laag’ eind. De ene variabele is niet beter
of hoger dan de ander; ze zijn verschillend van elkaar.
- Ordinaal (rangorde): Iemand die een 3 heeft gescoord heeft slechter gescoord dan iemand met
een 6. Bijvoorbeeld hoe vaak je naar de kerk gaat: nooit, minder dan 1x in de maand, 1 tot 3x in
de maand, elke week of meer dan 1x in de week. Hierbij kun je wel zeggen dat 1x in de maand
minder vaak is dan 1x in de week, maar de afstand tussen de levels is niet precies hetzelfde.
- Interval: Niet alleen zijn de verschillende scores geordend van minder naar meer, maar hebben
bovendien de afstanden tussen de verschillende scores betekenis (inhoudelijk even grote
sprongen). Hierbij is er sprake van een arbitrair nulpunt.
- Ratio: Hierbij hebben de afstanden tussen de verschillende scores ook betekenis, maar is er ook
sprake van een absoluut nulpunt. Hierdoor kun je de scores vermenigvuldigen.
o Bij lengte kan iets niet kleiner zijn dan 0
o Bij temperatuur in Celsius kun je wel beneden de 0 komen, dus interval.
o Stel je zit op -2 graden dan kun je niet vermenigvuldigen, want als je zegt het is 2x zo warm
en je vermenigvuldigt het met 2, dan kom je op -4, maar dat is het dus niet 2x zo warm.
o Bij temperatuur in Kelvin heb je wel een nulpunt. Moleculen kun niet minder bewegen als ze
al stilstaan en dat is bij 0 K.
Stappen bij testconstructie
1. Wat willen we meten en waarom? Vaak meten we constructen (vage/niet concrete begrippen),
zoals motivatie, intelligentie, ordelijkheid, schoolprestatie, etc.
2. Hoe kunnen we dit operationaliseren in vragen, opgaven en uitspraken?
3. Wat is de relatie tussen de delen (de vragen/items) en het geheel (hetgeen je wilt meten)?
4. Wat is de kwaliteit (doel, construct, betrouwbare meting)?
Toepassingsmogelijkheden – Beoordeling van individuen
De uitspraken die gedaan kunnen worden over het gedrag van de onderzochte vinden plaats in zeer
uiteenlopende situaties:
1) Wanneer de prestaties op een test een relatie blijkt te vertonen met het criteriumgedrag, dan
kan de testprestatie worden gebruikt om een voorspelling te doen van mogelijk succes. Deze
voorspelling biedt de mogelijkheid tot een stevigere basis voor de te nemen beslissing.
o Bijvoorbeeld het al dan niet voltooien van een training/opleiding/studie of het al dan niet
voldoen in een functie/beroep.
2) Ten tweede kan er sprake zijn van een keuzemogelijkheid tussen ten minste twee opties. Deze
opties kunnen onderling verschillen qua niveau, maar ze kunnen ook kwalitatief van elkaar
verschillen. Hierbij is het niet voldoende dat de test correleert met de criteria, maar moet er ook
een differentiatie tussen de verschillende alternatieven mogelijk zijn.
o Bijvoorbeeld wanneer je advies moet geven over de keuze tussen de diverse profielen in
het VWO.
3) Ten derde noemen we het geval dat men wil weten wat de zwakke en sterke kanten van een
kandidaat zijn of in welke gebieden een cliënt meer of minder is geïnteresseerd. Het gaat hierbij
niet om de absolute hoogte van de scores, maar om hun onderlinge verhouding (> ipsatieve
scores).
4