1.
Een korte geschiedenis
Als de bekende “Appel Test” van Eva in de Tuin van Eden niet meetelt,
waren de Chinezen in 2200 voor Christus de eersten die echt gebruik
maakten van tests. Zij testten de competentie van toekomstige
overheidsfunctionarissen door hun schriftelijk te ondervragen m.b.t.
kennis over de wet, geografie, landbouw, en andere aspecten.
In de 18e en vroeg 19e eeuw was Gauss de eerste die officieel het
principe van een meetfout constateerde en specifieke
verdelingskenmerken rapporteerde (Gauss-curve, ofwel de
normaalverdeling). In de 19e eeuw ontwikkelden psychiaters in Engeland
en de Verenigde Staten classificatiesystemen om mentale problemen te
groeperen. Ook promootte o.a. Kraeplin het gebruik van de vrije
associatie test bij psychiatrische patiënten – een test waarbij een
persoon aan de hand van een stimulus de eerste respons moet geven die
hij/zij daarmee associeert. Een aantal psychologen die een belangrijke
bijdrage hebben geleverd aan het testen van de cognitieve
vaardigheden, waarbij het gebruik van objectieve procedures de
belangrijkste ontwikkeling was, zijn Galton, Cattell en Wissler. Galton
was de grondlegger van mentale tests: hij was de eerste die op
grootschalig niveau systematisch individuele verschillen in fysieke,
sensorische en motorische data verzamelde en met elkaar vergeleek. De
focus lag op de correlatie van deze data met de intellectuele capaciteiten
(“brass instruments era”). Samen met Cattell ontwikkelde Galton de
eerste gestandaardiseerde vragenlijsten die werden gebruikt om
persoonlijkheid te meten. Cattell was ook de eerste die de term “mentale
test” gebruikte in een gepubliceerd artikel. Wissler weerlegde (deels
onterecht) de notie dat intellectuele vaardigheden en de sensorisch-
motorische data correleren: dit introduceerde een tijdperk waarin
intellect gezien ging worden als een geraffineerder mentaal proces van
hogere orde (zoals Binet deed).
Ook in de 20e eeuw werden veel tests ontwikkeld. Zo kwamen Binet en
Simon aan het begin van de 20e eeuw met de Binet-Simon scale. Deze
schaal mat intelligentie o.a. aan de hand van beredenering, begrip en
het korte termijn geheugen van een persoon. De Binet-Simon scale was
een goede voorspeller voor academisch succes en wordt, na enige
herzieningen, nog steeds gebruikt. In de Verenigde Staten kreeg de
intelligentietest een boost doordat het leger vlak voor de Eerste
Wereldoorlog gebruik ging maken van Alfa (verbale) en Beta (non-
verbale) bekwaamheidstaken voor rekruten. Verder ontwikkelde Wood-
worth in 1918 de Personal Data Sheet: de eerste formele
persoonlijkheidstest. In de jaren '20 ontwikkelde Rosarch de Rosarch
Inktblok Test, wat tot het begin van de 21e eeuw een van de meest
gebruikte tests is. In de jaren ’30 ontwikkelde Wechsler een
intelligentietest die zowel verbale als non-verbale intelligentie mat:
,tegenwoordig zijn de (herziene) Wechsler intelligentietest de populairste
intelligentietests. De Minnesota Multiphasic Personality Inventory,
oftewel de MMPI (oorspronkelijk geïntroduceerd in de jaren ’40,
tegenwoordig is er een MMPI-2) vergemakkelijkt de diagnose van
psychiatrische stoornissen en is nu de populairste methode om de
persoonlijkheid te beoordelen.
Wat is het verschil tussen test, measurement en
assesment?
De termen test, measurement en assessment worden vaak door elkaar
gebruikt. Toch is er een wezenlijk verschil tussen de drie.
Een test is een middel of procedure waarmee een deel van het gedrag
van een persoon in kaart wordt gebracht, geëvalueerd wordt en
gescoord wordt, m.b.v. gestandaardiseerde procedures.
Measurement wordt letterlijk vertaald als meting. In deze samenvatting
zal het woord measurement echter gebruikt worden. Bij measurement
wordt er aan een aantal regels gehouden om zo kenmerken, gedrag en
attributen van personen te becijferen.
Assessment wordt letterlijk vertaald als vaststelling. Omdat deze
vertaling die lading van het woord niet dekt, zal in het vervolg het woord
assessment worden gebruikt. Assessment is elke systematische manier
waarop informatie wordt verzameld om karakteristieken van mensen of
objecten te kunnen begrijpen. Bij assessment worden meerdere scores
en tests gebruikt om de informatie te verzamelen.
Assessment is de term die meestal wordt gebruikt om het testen en
meten van personen weer te geven: de termen measurement en testing
worden minder vaak gebruikt omdat ze een negatieve lading hebben.
Twee andere belangrijke termen die veel zullen terugkomen zijn
betrouwbaarheid (de stabiliteit of consistentie van testscores) en
validiteit (de accuraatheid van de interpretatie van testscores).
⇧
Welke verschillende soorten tests en scoring zijn
er?
Tests
Cronbach deelde in 1990 tests op in maximale prestatie tests en
typische respons tests.
Maximale prestatie tests worden gebruikt om het maximale kunnen van
een persoon te meten. Een voorbeeld hiervan is een intelligentietest. Er
zijn drie voornaamste indelingen:
• Ten eerste wordt er onderscheid gemaakt tussen een prestatietest
of een bekwaamheidstest. Een prestatietest meet kennis van een
persoon in een specifiek domein. Hierbij wordt gekeken welke
kennis een persoon heeft verworven. Een bekwaamheidstest meet
, kennis met betrekking tot levenservaring. Bekwaamheidstests zijn
goede voorspellers voor toekomstig succes.
• Daarnaast spreek je van een objectieve of een subjectieve test.
Een objectieve test kan door een computer nagekeken worden
omdat een vastgestelde sleutel wordt gebruikt, waardoor de manier
van beoordelen altijd gelijk is. Een subjectieve test moet worden
nagekeken door een persoon.
• Als laatste moeten maximale prestatie tests worden ingedeeld in
speed of power tests. Een speed test bevat relatief makkelijke
items en meet de snelheid waarmee een persoon de test doorloopt.
Bij een power test gaat het om de moeilijkheidsgraad van de
vragen die de persoon juist beantwoordt. De tijd waarin de test
doorlopen wordt, is hierbij niet van belang. De meeste tests zijn
echter een combinatie van een speed en power test.
Typische respons tests meten het typische gedrag van de onderzochte
en worden meestal gebruikt om de persoonlijkheid te meten. Typische
respons tests zijn er in verschillende vormen:
• Bij objectieve persoonlijkheidstests worden items op een objectieve
manier beoordeeld door middel van een vastgestelde
antwoordsleutel. Over de interpretatie van het antwoord kan niet
worden gediscussieerd.
• Bij projectieve persoonlijkheidstests krijgt de persoon een
onduidelijke stimulus te zien, waarop hij de eerste respons moet
geven die in hem naar boven kwam. Onderzoekers denken dat op
deze manier onbewuste driften naar boven komen.
Projectieve persoonlijkheidstests gebruiken ongestructureerd of
ambigu materiaal dat een oneindige mogelijkheid aan reacties
teweeg kan brengen (“wat ziet u in deze inktvlek?) . De projectieve
hypothese stelt dat het individu reageert op een manier dat
haar/zijn onbewuste behoeftes en motieven reflecteert zonder
interferentie van de ego of het bewuste denken.
Bij alle soorten tests kan nog onderscheid gemaakt worden tussen
gestandaardiseerde en niet-gestandaardiseerde tests. Bij een
gestandaardiseerde test zijn de testcondities zoveel mogelijk hetzelfde
voor alle personen die de test ondergaan. Een niet-gestandaardiseerde
test is minder formeel. Verder kunnen alle tests ook nog onderverdeeld
worden in individuele tests of groepstests. Individuele tests zijn
ontwikkeld om af te nemen bij 1 persoon per keer. Groepstests kunnen
worden afgenomen bij meer dan 1 persoon per keer.
Scoring
Scores op een test kunnen op verschillende manier geïnterpreteerd
worden. Normgerichte scores worden relatief geïnterpreteerd. Dit
betekent dat de scores worden vergeleken met de scores van andere
mensen. Criteriumgerichte scores worden vergeleken met een absolute
standaard, waarbij het criterium van te voren is vastgesteld en los staat
van prestaties van anderen.
, Welke aannames worden er gedaan?
• Psychologische constructen, zoals intelligentie en depressie,
bestaan.
• Psychologische constructen kunnen gemeten worden.
• Het meten van constructen gebeurt nooit perfect. Er is altijd een
mate van error aanwezig. Dit geldt voor metingen in alle
vakgebieden (oftewel: error is inherent aan alle metingen).
• Elk construct kan op verschillende manieren gemeten worden,
waarbij elke testmethode zijn voor- en nadelen heeft. Angst kan
bijvoorbeeld het best gemeten worden door een combinatie van
interviews en observaties.
• Belangrijke beslissingen moeten genomen worden op basis van
meerdere testen. Een diagnose moet accuraat vastgesteld worden
en dit mag nooit op basis van een enkele meting.
• De prestatie op tests kan gegeneraliseerd worden naar niet-geteste
gedragingen.
• Testen, ook al zijn ze niet perfect, geven nuttige informatie
waardoor psychologen betere beslissingen kunnen maken.
• Testen kunnen op een eerlijke manier afgenomen worden, maar er
is niet één test die geheel eerlijk is voor alle participanten.
• Testen kunnen vooroordelen opleveren voor individuen en de
maatschappij.
De voornaamste reden dat mensen tests gebruiken, is omdat mensen
niet goed zijn in het objectief beoordelen van anderen, en de meeste
metingprocedures die niet gebaseerd zijn op tests bevatten een
subjectief oordeel. Testen geven ons het idee dat het ons informatie
oplevert over belangrijke psychologische constructen, waardoor
psychologen betere beslissingen kunnen maken.
Hoe wordt een assessment toegepast?
Elk jaar worden er zo’n 20.000 nieuwe psychologische testen ontwikkeld.
Hierbij moet rekening gehouden worden met richtlijnen van The Stan-
dard for Educational and Psychological Testing. Door middel van deze
richtlijnen hebben participanten die deelnemen aan een test rechten met
betrekking tot vertrouwelijkheid en de informatie die ze krijgen. Testen
kennen verschillende toepassingen, zo kunnen ze o.a. gebruikt worden
bij de diagnosestelling, het opstellen van een behandelplan, zelfreflectie,
als evaluatie, bij het beslissen van het toekennen van een licentie of
voor wetenschappelijke doeleinden.
Assessment ontwikkelt zich steeds verder in de 21e eeuw. Een nieuwe
vorm van testen is Computerized Adaptive Testing (CAT). Hierin
selecteert de computer items met een bepaalde moeilijkheidsgraad voor
de participant. Deze items worden geselecteerd op basis van de prestatie
van de participant op eerdere items.