Hoofdstuk 1 – Historische ontwikkeling van het testen
De testdiagnostiek is als wetenschappelijk discipline in de twintigste eeuw tot bloei gekomen, maar
ook daarvoor werd er al onderzoek gedaan dat verwantschap vertoonde met het hedendaagse
testonderzoek. In het begin van de twintigste eeuw begint een meer wetenschappelijke aandacht
voor de test ontstaan, het gaat hier om een systematische bestudering en een empirische fundering
van het instrument dat voor een bepaalde oordeelsvorming wordt gebruikt.
1.1 Periode tot het verschijnen van de Binet-Simon-test
De eerste waardevolle intelligentietest, de Binet-Simon-test, verscheen in 1905, hier gingen diverse
ontwikkelingen vooraf:
1. Ontwikkelingen in de psychiatrie in Frankrijk en Duitsland
Behoefte aan diagnosemogelijkheden met betrekking tot aard en niveau van geestelijke
afwijking.
Hier werden tests gedaan om krank- en
zwakzinnigen te onderscheiden en om hun geestelijke vermogens te meten. Vanuit de
psychiatrische belangstelling voor de geestelijke onvolwaardigheid ontstond dus een behoefte
aan methoden om de verschillen tussen geestesziekten en de verschillende gradaties in
zwakzinnigheid te bepalen.
2. Ontwikkelingen in de experimentele psychologie, vooral in Duitsland.
Gestandaardiseerde onderzoeksprocedure
De experimentele psychologie had een stimulerende en een remmende werking op de
testpsychologie. De stimulans was de waarde die werd gehecht aan de exacte beschrijving van
experimenteercondities, de rigoureuze controle van de variabelen en de nauwkeurige verwerking
van de uitkomsten. De remmende werking was echter dat de experimentator de verschillen
tussen de proefpersonen eerder vervelend dan boeiend vond, hij schreef deze toe aan
experimenteerfouten. Ook ging het hier nog niet om hogere mentale functies, maar meer om
primaire sensorische en motorische functies.
3. Ontwikkelingen in de genetica.
Interesse in verschillen tussen mensen
Hier groeide de interesse in de erfelijkheid van psychische eigenschappen. Galton nam drie
elementen als pijler van zijn wetenschappelijk onderzoek: 1) Wenselijkheid van onderzoek van
individuele verschillen; 2) Noodzaak van systematisering van de onderzoekstechnieken; en 3)
Onderzoeken uit drukken in termen van afwijkingen van het gemiddelde.
Van psychologische testen op grote schaal was nog geen sprake
1.2 Periode tussen het verschijnen van de Binet-Simon-test en de Eerste Wereldoorlog
Binet kreeg in 1904 de opdracht om een test te ontwikkelen die kon differentiëren tussen luie en
incapabele kinderen. Deze test richtte zich op complexe in plaats van eenvoudige mentale processen
en bevatte empirische uitgangspunten: Binet testte zijn testopgaven aan de empirie. De eerste versie
van de Standford-Binet test voldeeed al aan twee belangrijke eisen: er waren standaardinstructies
geformuleerd en normen geconstrueerd.
Spearman kwam erachter dat twee intelligentiefactoren in de test een rol speelden, namelijk
algemene g-factoren en een specifieke s-factor (twee-factorentheorie).
In deze periode boekte te intelligentiemeting grote vooruitgang door uit te gaan van of voort te
bouwen op de ideeën van Binet en Simon. Testen op grote schaal gebeurde nog niet.
,1.3 Van het begin van de Eerste tot de Tweede Wereldoorlog
Door het uitbreken van de Eerste Wereldoorlog kwam de ontwikkeling van het testen in een
stroomversnelling, want er was noodzaak om grote groepen mensen te selecteren voor functies en
opleidingen van sterk uiteenlopende inhoud en zeer verschillend niveau. Met de Army Alpha konden
grote groepen mensen snel op intelligentie getest worden. Na de Eerste Wereldoorlog kwam er in
Europa ook aandacht voor de kwalitatieve aspecten van het afnemen van tests (de wijze waarop
deze gedaan wordt), in Amerika kwam het accent juist meer te liggen op kwantitatief verwerkbare
groepstests (ook vanwege een toenemend aantal migranten; hierdoor kwamen er ook niet-verbale
tests, die een ‘performance’-karakter hadden (Army-Bèta)). Engeland nam hier een tussenpositie in.
In Amerika en Engeland kwam ook meer aandacht voor de objectieve evaluatie van schoolprestaties
(d.m.v. mc-vragen).
Het gebruik van de test ging vaak vooraf aan de theorie. Wel was er aandacht voor de evaluatie van
de tests en daarmee voor de statistiek.
Aan intelligentie werd ook een groepsfactor toegevoegd. De structurele opvatting van de
intelligentie, met de mogelijkheid van op empirisch onderzoek gebaseerde analyse van profielen van
testprestaties per intelligentiefactor in plaats van de vaststelling van een algemene totaalscore,
opende geheel nieuwe perspectieven voor selectie, diagnose, beroepskeuze en counseling.
Drie afzonderlijke methoden van het testen van de persoonlijkheid:
1. Observatie (vooral populair in West-Europa; niet objectief of gestandaardiseerd)
2. Persoonlijkheidsvragenlijsten
3. Projectietest (men roept associaties op bij een bepaalde stimulus)
1.4 Van het begin van de Tweede Wereldoorlog tot heden
1.4.1 Ontwikkelingen in de Verenigde Staten
Na de Tweede Wereldoorlog vond er in de VS en in Engeland een expansie plaats op alle terreinen
van het testen. Tests werden gebruikt om potentiële psychiatrische patiënten te identificeren, om
schoolvorderingen te meten of om kennisniveaus te meten. Ook ontstonden er veel tijdschriften voor
de communicatie van tests, testonderzoek en psychometrie. Handboeken brengen veel inhoudelijke
informatie over tests bijeen en bieden een uitgebreide behandeling van de wetenschappelijke
testtheorie. De ‘educational measurement’ en de schaaltheorie hadden een belangrijke invloed op de
testtheorie. Naast de vele boeken die tonen dat er een expansie was, zorgde ook het testen per
computer voor verandering.
1.4.2 Ontwikkelingen in Europa, vooral in Nederland
Europa heeft lange tijd achtergelopen op het gebied van testtheorie. Sinds de jaren ’60 is de
testtheorie in enkele landen wel gegroeid en in West-Europa is er momenteel sprake van een
bloeiende testtheorie en -praktijk.
In Nederland was het testgebruik in de jaren ’40 en ’50 nog erg subjectief. Vanaf de jaren ’50 wilde
men meer richting objectief testgebruik. In 1959 is de COTAN (Commissie Testaangelegenheden
Nederland (toen nog Test Research Commissie)) ingesteld, met als belangrijkste taak de publicatie
van een overzicht van in Nederland bestaande en in gebruik zijnde tests alsmede documentatie van
het onderzoek hiermee verricht.
Tot in de jaren ’60 was er in Nederland amper sproke van schoolvorderingstests. In de jaren ’70 deed
de testtheorie haar intrede bij de beoordeling van school- en opleidingsprestaties. Tegenwoordig
heeft de psychologische test definitief een wetenschappelijk verdedigbare plaats in de Nederlandse
psychologie.
,Hoofdstuk 2 – Definitie, kenmerken en toepassingen van de test
2.1 Wat is een test?
2.1.1 Onderdelen van een test
Testmateriaal
Kan variëren van een testboekje tot bouwstenen, legpuzzels, foto’s, etc.
Testformulieren
Hierop worden de antwoorden, reacties of gedragsgegevens verzameld, deze vormen vervolgens
het materiaal waaruit de psychologische interpretatie of conclusies worden afgeleid.
Testhandleiding
1. Testinstructie
2. Verwerkingsprocedure
3. Normtabellen
4. Wetenschappelijke kwaliteiten van de test (betrouwbaarheid, validiteit, voorspelbaarheid)
2.1.2 Eerste omschrijving
De bedoeling van het testonderzoek is het doen van een uitspraak die een voorspelling, classificatie
of beschrijving met betrekking tot het onderzochte individu omvat. Een psychologische test is een
systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven, met
de bedoeling inzicht te krijgen in een psychologisch kenmerk van de onderzochte in vergelijking met
anderen.
2.1.3 Kenmerken van een test
Een goede test is te identificeren aan de hand van zes belangrijke kenmerken:
1. Efficiëntie
Men is bij tests niet afhankelijk van het toevallig beschikbaar zijn van gelegenheden waarin
bepaald gedrag zich voordoet.
2. Standaardisatie
Bij een goede test wordt de vergelijkbaarheid van prestaties bereikt door de condities en
invloeden die op de testprestatie kunnen inwerken zo veel mogelijk te standaardiseren.
3. Normering
Bij grote verschillen zijn er niet zo veel problemen, maar voor de vaststelling van kleinere
verschillen is een gevoeliger instrument nodig dat niet uitgaat van de grove maatstaven die in het
lekenoordeel worden gebruikt. Ook wanneer er veel van afhangt is dit belangrijk.
Het vaststellen van een rangorde is de eenvoudigste vorm van normering, vaak kunnen de
afstanden tussen testscores in de normering worden opgenomen. De beschikbaarheid van
normen is meestal een noodzakelijke voorwaarde voor het gebruik van een test.
4. Objectiviteit
Dit is de onafhankelijkheid van storende invloeden vanuit de persoon van de waarnemer,
beoordelaar of interpretator. Het resultaat van het onderzoek is dus onafhankelijk van de
persoon van degene die de gegevens verzamelt of uitwerkt. Het moet dus niet uitmaken die de
beoordelaar is, en er moet openheid en reproduceerbaarheid van de rest- en evaluatieprocedure
zijn. De interbeoordelaarsbetrouwbaarheid drukt de mate van overeenstemming van de
resultaten van meerdere beoordelaars uit. Bij een rangorde kan dit berekend worden door
Spearmans rangcorrelatie, Kendalls tau of Kendalls ‘coefficient of concordance’ (wanneer er
meer dan 2 beoordelaars zijn). Wanneer de afstanden tussen de plaatsen in de rangorde
betekenis hebben, kan de product-momentcorrelatie de interbeoordelaarsbetrouwbaarheid
uitdrukken. Wanneer beoordelaars mensen moeten indelen in groepen, kan Cohens Kappa
, P o−Pt
gebruikt worden. kappa= .
1−Pt
Bij observatietests en projectietests is de interbeoordelaarsbetrouwbaarheid vaak laag, deze kan
geoptimaliseerd worden door de oordeelsvorming zo veel mogelijk te baseren op het direct
waarneembare gedrag. Wanneer men verder wil gaan dan de objectief controleerbare
gedragsaspecten, zal een exact voorgeschreven verwerkingsprocedure de objectiviteit
bevorderen.
5. Betrouwbaarheid
Betrouwbaarheid houdt in dat je bij een herhaling van de meting, hetzelfde resultaat krijgt. In de
psychologie zien we hier het probleem dat het vaak onmogelijk is om twee onafhankelijke
metingen te verkrijgen. Een hoge betrouwbaarheid is wel belangrijk, omdat het niet zou moeten
uitmaken wanneer iemand getest wordt.
6. Validiteit
Hier wordt gekeken of de indicaties waarmee je een bepaald aspect meet, ook echt manifestaties
van dat aspect zijn. In wetenschappelijk onderzoek moeten alternatieve verklaringen voldoende
weerlegd zijn, zodat er geen verschil van mening is over de interpretatie en de betekenis van de
testprestatie.
2.2 Meten van eigenschappen door middel van tests
2.2.1 Meetniveaus en toegestane operaties
Volgens Stevens (1951) is er sprake van meten zodra getallen volgens een consistente procedure aan
objecten worden toegekend. We kennen vier meetniveaus.
1. Nominale schaal
Dit is het toekennen van een getal aan bepaalde groepen ter identificatie. Hier mogen geen
rekenkundige operaties op worden uitgevoerd.
2. Ordinale schaal
Deze schaal wordt gekenmerkt door het begrip rangorde. Ook hier mogen geen rekenkundige
operaties worden uitgevoerd, maar vergelijkingen zijn wel beter mogelijk.
3. Intervalschaal
Op intervalschaal zijn niet alleen de verschillende posities geordend van minder naar meer, maar
hier hebben de afstanden tussen de verschillende posities betekenis. De schaal heeft een
arbitrair nulpunt. De verhoudingen van de afstanden tussen de meetwaarden van vaste paren
van objecten blijft constant als men het nulpunt van de schaal over een afstand a zou
verschuiven.
4. Verhoudingsschaal
Deze schaal heeft dezelfde kenmerken als de intervalschaal, maar dan met een absoluut nulpunt,
waardoor alle rekenkundige bewerkingen zijn toegestaan, ook transformaties van het type Y=bX.
2.2.2 Opvattingen over meten
De meting van lengte is geen goed model voor de meting van psychologische eigenschappen, omdat
je deze niet zomaar bij elkaar op kan tellen en omdat ze ook niet direct meetbaar zijn. Ook de fysica
is geen goed model, want hier zijn theorieën krachtiger dan in de psychologie, waar sprake is van
abstractere theorieën. Ook is het gedrag van respondenten niet gemakkelijk te manipuleren.
Door een meting gelijk te stellen aan de uitkomst van een consistente procedure van het toekennen
van getallen aan objecten, is het in feite de procedure zelf (de test) die bepaalt dat er sprake is van
een meting. Dit heet ook wel het operationalisme. Dit lijkt misschien een technologische
aangelegenheid, maar dit is niet het geval, het levert een belangrijke wetenschappelijke bijdrage.