Samenvatting Test- en toetstheorie
Hoofdstuk 1 Geschiedenis
De testdiagnostiek is als wetenschappelijke discipline in de 20 e eeuw tot bloei gekomen.
Voorbeelden van testpraktijk vóór de twintigste eeuw zijn te vinden in de oudheid, in China,
in het Oude Testament en in de middeleeuwen. Een meer wetenschappelijke aandacht voor
de test ontstaat aan het begin van de twintigste eeuw.
Periode 1: de periode vóór 1900
In deze periode liep de testontwikkeling via drie lijnen. Allereerst ontstond binnen de
psychiatrie de behoefte aan tests om verschillen tussen de geestesziekten en de
verschillende gradaties in zwakzinnigheid te bepalen.
Daarnaast oefende de experimentele psychologie invloed uit door haar methodiek van
onderzoek. Opvallend is dat de nauwkeurige verwerking van uitkomsten volgens de
experimentele psychologie naast een stimulerende ook een remmende werking op de
testpsychologie heeft uitgeoefend. De stimulerende werking van de experimentele
psychologie lag in haar methodiek van onderzoek, dat wil zeggen: de exacte beschrijving van
experimenteercondities, het controleren van de variabelen en de nauwgezette bewerking
van de resultaten. De remmende werking is toe te schrijven aan het feit dat individuele
verschillen in prestaties worden toegeschreven aan fouten samengaand met het
experimenteerproces, terwijl de testontwerper juist belangstelling heeft voor verschillen
tussen personen.
Toch ging men op een zeker moment anders aankijken tegen individuele verschillen. In het
proefschrift van Cattell (1890) vormde het aspect van de individuele verschillen in reactietijd
het onderwerp. Voor het eerst werd het woord ‘test’ gebruikt. De testontwikkeling in deze
periode werd gevormd door onderzoek naar de erfelijke verklaring van individuele
verschillen (genetica) wat met name een grote invloed had op de statistische kant van
testonderzoek. Vanuit de genetica ontstond de aandacht voor verschillen in prestaties
tussen personen. Vanaf 1882 verrichtte Galton allerlei antropometrische onderzoekingen
waarbij hij geïnteresseerd was in de lichamelijke, sensorische en geestelijke functies. Galton
was net als Darwin geïnteresseerd in de erfelijkheid van psychische eigenschappen, en
probeerde aan te tonen dat deze aan dezelfde wetten onderhevig waren als de lichamelijke
eigenschappen. In zijn wijze van onderzoeken kwamen drie elementen voor, die alle een
pijler van het wetenschappelijk testonderzoek zouden gaan vormen. Het eerste element was
de wenselijkheid van het onderzoek van individuele verschillen. Het tweede element
bestond uit de noodzaak van systematisering van de onderzoekstechnieken. Als derde
element geldt de poging van Galton om de resultaten van zijn onderzoeken uit te drukken in
termen van afwijkingen van het gemiddelde. Pearson werd door deze
verwerkingsmogelijkheden geïnspireerd en heeft vervolgens zeer veel betekend voor de
statistiek en indirect voor de testpsychologie.
,Van psychologisch testen op grote schaal was echter nog geen sprake in deze periode. De
interesse hierin was incidenteel en voornamelijk theoretisch gericht, en het onderzoek vond
plaats in de laboratoria. Onderzoeksresultaten werden nog weinig toegepast. Onderzoek
was vooral gericht op functies van psychofysische aard (sensorisch, motorisch en
geheugenprocessen), onderzoek naar meer complexe intelligentiefuncties werd nauwelijks
gedaan.
Periode 2: De periode tussen het verschijnen van de Binet-Simon-test (1905) en de Eerste
Wereldoorlog
In 1904 kreeg Binet het verzoek onderzoek te doen naar het onderscheid tussen kinderen
die niet kunnen (lui) en kinderen die niet willen (incapabel). Alle pogingen faalden, totdat
Binet en zijn medewerker Simon 30 opgaven samenstelden die niet een beroep deden op de
veronderstelde basisfuncties van het intelligente functioneren (psychofysische
eigenschappen), maar een steekproef vormden uit de verschillende complexe opgaven
waarvoor het kind zich in het dagelijks leven en de schoolpraktijk gesteld zag. De opgaven
bestrijken een groot scala van problemen, maar zijn sterk verbaal van aard. Daarmee was de
eerste intelligentietest die ook daadwerkelijk een praktische functie had ontstaan. Binets
benadering was nieuw omdat het accent lag op complexe in plaats van eenvoudige mentale
processen. Binet richtte de aandacht op begrip, geheugen, het oplossen van problemen, en
verbeeldingskracht. Ten tweede was het empirische uitgangspunt nieuw. Binet was bereid
zijn ideeën, omgezet in testopgaven, te toetsen aan de empirie. Opgaven die niet naar
behoren functioneerden werden verwijderd of gewijzigd. Ten derde stelde Binet voor een
totaalscore te gebruiken om het intelligentieniveau weer te geven. Het begrip ‘mentale
leeftijd’ werd geïntroduceerd als een indicatie van de geestelijke groei.
Terman besteedde een groot deel van zijn leven aan de Amerikaanse versies van deze test,
sindsdien bekend onder de naam ‘Stanford-Binet’. Er werden standaardinstructies
geformuleerd, zodat vergelijkbaarheid van testscores mogelijk werd, en er werden normen
geconstrueerd, gebaseerd op een representatieve steekproef. Ook nam Terman het idee van
Stern (1911) over om de mentale leeftijd te delen door de chronologische leeftijd en dit getal
te vermenigvuldigen met 100. Dit gaf een praktische indicatie van het intelligentieniveau van
het onderzochte kind.
Op basis van theoretische onderzoekingen kwam Spearman tot de conclusie dat in alle tests
twee intelligentiefactoren een rol speelden: een algemene (g-)factor en een specifieke
(s-)factor. Hiermee had hij zijn bekende twee-factorentheorie geformuleerd. Intelligentie
was volgens Spearman de gemeenschappelijke factor die men kan extraheren uit een serie
van intelligentietests. Doordat Binet een breed scala van complexe opgaven had
geselecteerd, verwijst zijn test naar de g-factor.
Ook op het gebied van de meting van opleidingsvordering van leerlingen werden in deze
periode de eerste stappen gezet door Thorndike en Burt. Met behulp van ‘educational
achievement tests’ kon men achtergebleven leerlingen als zodanig herkennen en de
prestaties van verschillende scholen vergelijken.
,De tekortkomingen van deze periode waren het ontbreken van de mogelijkheid om de tests
groepsgewijs af te nemen, en het validatieonderzoek.
Periode 3: De periode tussen de Eerste en de Tweede Wereldoorlog
De periode tussen de Eerste en de Tweede Wereldoorlog werd gekenmerkt door erkenning
dat de psychologische test een positieve bijdrage kan leveren in verschillende
beslissingssituaties. Door het uitbreken van de Eerste Wereldoorlog kwam de ontwikkeling
van het testen in een stroomversnelling. De reden was de noodzaak om grote groepen
mensen te selecteren voor functies en opleidingen van sterk uiteenlopende inhoud en zeer
verschillend niveau. De twee veranderingen in de psychologie door de Eerste Wereldoorlog
zijn: het routinematig toepassen van de testpsychologie in beslissingssituaties en het
toepassen van de psychologie buiten laboratoriumsituaties. In vrij korte tijd kon men het
intelligentieniveau van grote groepen proefpersonen bepalen met de Army Alpha. De Army
Alpha-test is ontstaan uit de behoefte om vlug en efficiënt te testen. Daarom werd deze test
ontwikkeld door groepsgewijze schriftelijke afname.
Na de Eerste Wereldoorlog liepen de testontwikkeling in Amerika en die in Europa sterk
uiteen. In Europa bleef de individuele diagnostiek populair en stond de
fenomenlogische/intuïtieve benadering centraal. Door het filosofische klimaat werd de wijze
waarop de proefpersoon de taak verricht, zoals dit tot uiting komt in zijn werkinstelling en
houding tegenover de eigen prestatie, minstens even belangrijk gevonden als de prestatie
zelf. Individuele observatietests werden bijzonder populair en daarnaast werd nog steeds
het intelligentieniveau bepaald. In Amerika kwam vanuit een praktische behoefte het accent
steeds sterker te liggen op de kwantitatief verwerkbare groepstests. Een toenemend aantal
immigranten moest op zo rationeel mogelijke wijze in de maatschappij worden opgenomen
en geïntegreerd. Zij dienden hiertoe aan een vergelijkend onderzoek te worden
onderworpen. Bovendien stimuleerde de in Amerika sterk gepropageerde gedachte van
gelijke kansen voor iedereen de behoefte aan dergelijke op grote schaal bruikbare
instrumenten. Ten slotte vereiste de toenemende specialisatie, differentiatie en
vertechnisering van het productieproces een sterke rationalisering van de selectie- en
plaatsingsprocedure. Door de immigranten ontstond ook een behoefte aan tests die minder
afhankelijk waren van taal en cultuur. Naast de Army Alpha werd nu in 1918 een tweede
schriftelijke groepstest samengesteld, de Army Bèta, die pantomimisch (met gebaren) kon
worden geïnstrueerd en geen beroep deed op enige taalkennis of verbale vaardigheid. Non-
verbale tests werden ook toegepast op het specifieke terrein van intelligentieonderzoek van
gehandicapten.
Thurstone (1931) stimuleerde de aandacht voor de kritische evaluatie van de test zelf. Hij
was van mening dat de resultaten van een test betrouwbare testscores dienen op te leveren,
en als men met een test gedrag buiten de testsituatie probeert te voorspellen
(criteriumgedrag) dient de relatie tussen test en criterium van tevoren te zijn aangetoond.
Hierdoor ging de statistiek een belangrijke rol spelen in de testpsychologie en werd de
kwantificeerbaarheid van de testprestatie een noodzakelijke voorwaarde voor nuttig
testgebruik.
, Zowel in Engeland als in Amerika werd grote aandacht besteed aan de objectieve evaluatie
van schoolprestaties. Aan het onderzoek naar de intelligentiestructuur werd een nieuwe
dimensie toegevoegd, namelijk de groepsfactoren. Een dergelijke groepsfactor is een voor
sommige tests gemeenschappelijke factor. De volgende 7 groepsfactoren werden door
Thurstone geïdentificeerd: verbal comprehension, word fluency, number facility, spacial
visualization, associative memory, perceptual speed en reasoning. Deze structurele opvatting
van de intelligentie, met de mogelijkheid van op empirisch onderzoek gebaseerde analyse
van profielen van testprestaties per intelligentiefactor in plaats van de vaststelling van een
algemene testscore, opende geheel nieuwe perspectieven.
Tot slot ontstond er een ontwikkeling van de persoonlijkheidstest. Drie methoden kunnen
met betrekking tot het testen van de persoonlijkheid worden onderscheiden. Ten eerste de
observatie, vooral in West-Europa populair. Observatietests waren bedoeld om inzicht te
geven in de kwalitatieve aspecten van de prestatie. Bij het gebruik van de observatieproef
als persoonlijkheidstest was van betrouwbare en objectieve of gestandaardiseerde meting
nauwelijks sprake. Ten tweede werden in deze periode de eerste
persoonlijkheidsvragenlijsten samengesteld. Deze vragenlijsten waren gestandaardiseerde,
op schrift gestelde, psychiatrische interviews. De derde methode was de toepassing van
projectietests. In projectietests wordt een stimulus aangeboden waarop de persoon vrij mag
reageren al naargelang de betekenis die deze stimulus voor hem heeft of de associaties die
hij oproept. Verondersteld wordt dat de onderzochte in zijn reacties iets van zichzelf
openbaart. In deze wijze van testinterpretatie werd een sterke nadruk gelegd op de inleving
in de proefpersoon en op het invoelend begrijpen van diens emotionele beleven.
Periode 4: Van het begin van de Tweede Wereldoorlog tot heden
Deze periode wordt gekenmerkt door uitbreiding in zowel de breedte als de diepte; het
aantal beschikbare tests nam toe evenals onderzoek naar de methodische grondslagen van
het testgebruik. In Amerika werden gedurende de oorlogsjaren psychologen op het terrein
van selectie, testontwikkeling en psychiatrisch-medische keuring ingeschakeld bij de keuring
en selectie van de krijgsmacht. Deze samenwerking leidde tot een enorme toename van het
aantal selectie- en diagnostische test, tot een sterke professionalisering van het selectie- en
plaatsingsgebied en tot een constructieve en kritische bezinning op de psychologische
principes van het testonderzoek. Differentiële testbatterijen werden ontwikkeld om inzicht
te krijgen in de structuur van vaardigheden.
Met behulp van schoolvorderingentests kunnen vergelijkingen worden gemaakt tussen de
resultaten van vooropleidingen. Opleidings- en kennistests worden gebruikt om zowel de
toekomstige prestaties van een kandidaat te voorspellen als de opleidingsprogramma’s te
evalueren. Persoonlijkheidsvragenlijsten en biografische anamnestische vragenlijsten
werden gebruikt bij identificatie van potentiële psychiatrische patiënten en bij selectie voor
bepaalde functies.