Hoofdstuk 1 – Psychometrie en het belang van
psychologische metingen
Psychologische tests spelen een grote rol in ons leven. Deze tests kunnen ook van invloed zijn op ons
leven. Zo kan het ook een zaak van leven en dood zijn omdat mensen met een VB in sommige staten
geen doodstraf kunnen krijgen. Om vast te kunnen stellen of iemand echt een VB heeft heb je
Psychologische tests nodig, bijv. intelligentietests. Omdat de psychologische tests zo’n grote rol
spelen is het van belang dat ze van heel goede kwaliteit zijn.
In dit boek worden er onder andere principes en concepten besproken die belangrijk zijn voor het
maken van tests die psychologisch zinvol en betrouwbaar zijn. Deze principes en concepten staan
bekend als psychometrie.
Why Psychological Testing Matters to You
Wanneer mensen op welke manier dan ook gebruik maken van psychologische tests (die beslissingen
nemen over mensen), hebben zij verantwoordelijkheid om belangrijke informatie over de betekenis
en kwaliteit van de tests die ze gebruiken te onderzoeken en te interpreteren. Zonder een gedegen
begrip van de basisprincipes van psychologische metingen, lopen testgebruikers het risico de
informatie afkomstig van psychologische tests verkeer te interpreteren of te misbruiken. De juiste
interpretatie en het juiste gebruik van tests kan zeer waardevol zijn voor testgebruikers en gunstig
voor testpersonen.
Meten vormt altijd de kern van het onderzoeksproces. Als iets niet goed wordt gemeten, kan het niet
met enige wetenschappelijke validiteit worden bestudeerd.
Gezien het wijdverbreide gebruik en belang van psychologische metingen, is het cruciaal om de
eigenschappen te begrijpen die de kwaliteit van dergelijke metingen beïnvloeden.
Observable Behavior and Unobservable Psychological Attributes
Mensen gebruiken veel soorten instrumenten om de waarneembare eigenschappen van de fysieke
wereld te meten (denk aan meetlint voor lengte (je kan lengte zien)). Mensen gebruiken ook
verschillende instrumenten om de eigenschappen van de fysieke wereld te meten die niet direct
waarneembaar zijn (denk aan klok voor tijd (tijd kan je niet direct zien)). Zo gebruiken psychologen
psychologische tests als instrumenten om waarneembare gebeurtenissen in de fysieke wereld te
meten. In de gedragswetenschappen zijn deze waarneembare gebeurtenissen typisch een soort
gedrag, en gedragsmeting wordt meestal voor twee doeleinden uitgevoerd.
Soms meten psychologen een gedrag omdat ze op zichzelf geïnteresseerd zijn in dat specifieke
gedrag. Sommige psychologen hebben bijvoorbeeld de manier bestudeerd waarop
gezichtsuitdrukkingen de perceptie van emoties beïnvloeden. Het Facial Action Coding System (FACS)
is ontwikkeld om onderzoekers in staat te stellen bewegingen van zeer specifieke gezichtsspieren te
lokaliseren. Onderzoekers die de FACS gebruiken, kunnen nauwkeurig 'gezichtsgedrag' meten om te
onderzoeken welke gezichtsbewegingen van een persoon de perceptie van emoties van anderen
beïnvloeden. In dergelijke gevallen zijn onderzoekers geïnteresseerd in het specifieke gezichtsgedrag
zelf; ze interpreteren ze niet als signalen van een of ander onderliggend psychologisch proces of
karakteristieken.
Steeds vaker zien gedragswetenschappers menselijk gedrag als een manier om niet-waarneembare
psychologische kenmerken (intelligentie, depressie, etc.) te beoordelen. Ze identificeren dan een
soort waarneembaar gedrag waarvan ze denken dat het de specifieke niet-waarneembare
psychologische eigenschap, toestand of proces vertegenwoordigt.
BIJVOORBEELD: werkgeheugen is een niet-waarneembaar psychologisch kenmerk. Om
werkgeheugen toch te kunnen meten moet er een taak ontwikkeld worden met observeerbaar
gedrag waarmee het werkgeheugen gemeten kan worden. Je kan leerlingen bijvoorbeeld vragen een
reeks cijfers te herhalen die ze een voor een en snel achter elkaar krijgen. Als twee studenten
verschillen in hun prestaties bij deze taak, kunnen we aannemen dat ze verschillen in hun
werkgeheugen. Dat wil zeggen, we zien het verschil in hun taakuitvoering en we interpreteren het als
1
,een weerspiegeling van een verschil in hun werkgeheugen. Deze conclusie vereist dat we een
gevolgtrekking maken - dat een waarneembaar gedrag, het aantal teruggeroepen cijfers,
systematisch verband houdt met een niet-waarneembare mentale eigenschap, het werkgeheugen.
Hier kunnen wel drie opmerkingen bij gemaakt worden:
- Er wordt een gevolgtrekking gemaakt van waarneembaar gedrag naar niet-waarneembaar
psychologisch attribuut. Er wordt dus aangenomen dat het specifieke gedrag dat we waarnemen
een afspiegeling is van het werkgeheugen. Als deze gevolgtrekking klopt, zal er sprake zijn van
een zekere vorm van validiteit. Wanneer de scores van een meting ook de daadwerkelijke scores
lijken te zijn van de mentale toestand/proces die we denken te meten, zeggen we dat onze
interpretatie van scores op de meting valide is.
- Om deze meetmethode te kunnen gebruiken moet deze taak (cijferreeksen) wel gekoppeld zijn
aan het werkgeheugen. Een meting in de gedragswetenschappen omvat vaak (niet altijd) een
soort theorie die psychologische kenmerken, processen of toestanden koppelt aan
waarneembaar gedrag waarvan wordt aangenomen dat het verschillen in de psychologische
eigenschap weerspiegelt.
- Werkgeheugen zelf is een theoretisch concept. Er wordt dus vanuit gegaan dat het
werkgeheugen meer is dan een verzinsel van onze verbeelding. Deze theoretische concepten
worden vaak hypothetische constructies of latente variabelen genoemd. Het zijn theoretische
psychologische kenmerken, attributen, processen of toestanden die niet direct kunnen worden
waargenomen, en ze omvatten zaken als kennis, intelligentie, zelfrespect, attitudes, honger,
geheugen, persoonlijkheidskenmerken, depressie en aandacht. De operaties of definities die we
gebruiken om deze hypothetische constructies te meten worden operationele definities
genoemd. In andere takken van de wetenschap worden er ook vaak conclusies getrokken over
niet-waarneembare gebeurtenissen, dingen en processen op basis van waarneembare
gebeurtenissen.
Psychological Tests: Definition and Types
What Is a Psychological Test?
Volgens Cronbach (1960) is een psychologische test ‘een systematische procedure om het gedrag van
twee of meer mensen te vergelijken’. Deze definitie bestaat uit drie belangrijke onderdelen:
1. Het gaat om gedragingen
2. De gedragingen moeten op systematisch een systematische manier worden verzameld
3. Het doel van de test is om het gedrag van twee of meer mensen met elkaar te vergelijken
Hierbij kan nog worden toegevoegd ‘een vergelijking van dezelfde persoon op verschillende
tijdstippen’. Verder is deze definitie erg aantrekkelijk. Dit komt o.a. door de algemeenheid.
Psychologische tests kunnen namelijk voor vormen aannemen, en al deze verschillende vormen
worden meegenomen in de definitie van Cronbach. De algemeenheid geldt ook voor het soort
informatie dat door tests wordt geproduceerd. Sommige tests produceren getallen die de
hoeveelheid van een psychologisch attribuut vertegenwoordigen, terwijl andere tests categorische
gegevens opleveren (mensen die de test maken, kunnen in groepen worden gesorteerd op basis van
hun antwoorden op testitems.
Een andere belangrijk kenmerk van Cronbachs definitie betreft het algemene doel van
psychologische tests. Tests moeten in staat zijn om het gedrag van verschillende mensen
(interindividuele verschillen) of het gedrag van dezelfde individuen op verschillende tijdstippen of
onder verschillende omstandigheden (intra-individuele verschillen) te vergelijken. De maatstaf in de
psychologie is het identificeren en, indien mogelijk, kwantificeren van dergelijke interindividuele of
intra-individuele verschillen. Inter- en intra-individuele verschillen in testprestaties dragen bij aan de
variantie van de testscore, een noodzakelijke voorwaarde om elk psychologisch attribuut te meten.
Type of Tests
Er zijn heel veel verschillende tests en deze tests variëren van elkaar langs tientallen verschillende
dimensies:
2
,- Tests kunnen inhoudelijk variëren: er zijn prestatietests, proeve van bekwaamheid,
intelligentietests, persoonlijkheidstests, attitudetests, etc.
- Tests kunnen variëren m.b.t. de vereiste respons: er zijn open tests (mensen kunnen testvragen
beantwoorden door alles te zeggen wat ze willen als antwoord op de vraag) en er zijn tests met
een gesloten einde (mensen beantwoorden vragen door te kiezen uit alternatieve antwoorden
die in de test worden gegeven).
- Tests variëren in de methoden die worden gebruikt om ze af te nemen: er zijn afzonderlijk
afgenomen tests en er zijn tests om bij groepen mensen af te nemen.
- Tests variëren in het beoogde doel van testscores: psychologische tests worden vaak
gecategoriseerd als criterion referenced (ook wel domain referenced genoemd) of als norm
referenced.
o Norm referenced: een test waarbij de score van de respondent wordt geïnterpreteerd t.o.v.
de scores van andere respondenten. Scores op norm referenced tests zijn van weinig
waarde als de referentiesteekproef niet representatief is voor een populatie, als de
relevante populatie niet goed gedefinieerd is of als er twijfel bestaat dat de geteste persoon
een lid van de relevante populatie. In principe doen geen van deze problemen zich voor bij
criterion referenced.
o Criterion referenced: een test waarbij de score van de respondent wordt geïnterpreteerd
onafhankelijk van de scores van anderen
o Het verschil tussen deze twee is echter wel vaak vaag. Criterion referenced tests in zekere
zin altijd norm referenced. D.w.z. dat de afkappunten van criteria niet willekeurig worden
bepaald. Deze afkapscores (cutoff-score)wordt gekoppeld aan een beslissingscriterium op
basis van een bepaald standaard of verwacht prestatieniveau (bijv. autorijexamen).
- Tests kunnen ook variëren in speeded tests (versnelde tests) en power tests (vermogenstests):
o Speeded tests zijn tests met beperkte tijd. Hierbij wordt er over het algemeen niet van
mensen verwacht dat ze de test binnen de tijd af hebben. Deze tests worden gescoord door
het aantal vragen te tellen dat is beantwoord in de toegewezen tijdsperiode. Aangenomen
wordt dat de kans groot is dat elke vraag correct wordt beantwoord (iedere vraag op een
versnelde test moet een vergelijkbare moeilijkheidsgraad hebben).
o Power tests zijn niet beperkt in de tijd en van testpersonen wordt verwacht dat ze alle
testvragen beantwoorden. Deze tests woorden vaak gescoord door het aantal juiste
antwoorden op de test te tellen. Testitems moeten in moeilijkheidsgraad variëren als scores
op deze tests moeten worden gebruikt om onderscheid te maken tussen mensen met
betrekking tot het psychologische attribuut van interesse.
Psychometrics
What is Psychometrics?
Psychometrie is de wetenschap die zich bezighoudt met het evalueren van de eigenschappen van
psychologische tests. Net zoals dat psychologische tests over theoretische eigenschappen van
mensen gaan, gaat psychometrie over theoretische eigenschappen van psychologische tests.
Psychometrie gaat over de procedures die worden gebruikt om de kenmerken van tests te schatten
en te evalueren. Drie kenmerken zullen van groot belang zijn:
1. Het type informatie (in de meeste gevallen scores) gegenereerd door het gebruik van
psychologische tests
2. De betrouwbaarheid van gegevens van psychologische tests
3. Kwesties m.b.t. de validiteit van gegeven verkregen uit psychologische tests.
A Brief History of Psychometrics
De psychometrie ontstond vanwege twee belangrijke redenen. (1) Er worden al sinds 2000-4000 jaar
geleden psychologische tests afgenomen. Psychologische metingen namen toe in de 19 e eeuw toen
psychologische wetenschap opkwam en toen onderzoekers systematisch verschillende kwaliteiten en
reacties van individuen in experimentele studies begonnen te meten. In de 20 e eeuw nam dit nog
3
, meer toe, met de ontwikkeling van vroege intelligentietests en vroege persoonlijkheidsinventarissen.
In de afgelopen 100+ jaar, zijn het aantal, de soorten en toepassingen explosief toegenomen. Door
deze ontwikkeling ontstond de behoefte naar hoogwaardige tests en de evaluatie van tests. Hierdoor
ontstond de psychometrie.
(2) Een samenhangende reden is de ontwikkeling van bepaalde statistische concepten en begrippen.
Dit begon op te komen aan het einde van de 19 e eeuw en het begin van de 20e eeuw. Denk aan de
standaarddeviatie, correlatiecoëfficiënt, factoranalyse, normaalverdeling, en het gebruik van
steekproeven om meetfouten te identificeren en te behandelen.
De psychometrie kwam pas echt tot zijn recht in de jaren 30 en 40. Tegen die tijd waren veel
principes van wat nu bekend staat als klassieke testtheorie (CTT) verwoord, die de basis vormden
voor het meest bekende perspectief op testscores en testattributen. In de jaren 70 werd de klassieke
testtheorie uitgebreid tot de generaliseerbaarheidstheorie. Ongeveer tegelijkertijd ontstond er ook
een alternatief van de klassieke testtheorie, wat leidde tot wat nu bekend staat als
itemresponstheorie (IRT). In de afgelopen decennia is de psychometrie in al deze richtingen
uitgebreid.
Challenges to Measurement in Psychologie
Je kan er nooit zeker van zijn dat een meting perfect is. Alle metingen, en dus alle wetenschappen,
worden beïnvloed door verschillende uitdagingen die de meetnauwkeurigheid kunnen beïnvloeden.
Ondanks de vele overeenkomsten tussen de wetenschappen bestaan er in de
gedragswetenschappen uitdagingen die in de natuurwetenschappen niet of nauwelijks aanwezig zijn.
De uitdagingen tasten ons vertrouwen aan in ons begrip en interpretatie van gedragsobservaties. Een
van de uitdagingen is om belangrijke aspecten van menselijke psychologische attributen in één getal
te identificeren en vast te leggen.
Participant reactivity is ook een uitdaging. Omdat psychologen in de meeste gevallen psychologische
kenmerken meten van mensen die bij bewustzijn zijn en in het algemeen weten dat ze worden
gemeten, kan het meten zelf de psychologische toestand van het gemeten proces beïnvloeden. Dit is
meestal geen probleem bij het meten van kenmerken niet-gevoelige fysieke objecten (bijv. gewicht
kan niet worden beïnvloed door het wegen).
Een andere uitdaging is dat de mensen in de gedragswetenschappen die de gedragsgegevens
verzamelen vooroordelen en verwachtingen kunnen inbrengen. Wanneer dit gebeurt verstoort dit de
meetkwaliteit. Expectation (verwachtingen) en bias (vooroordelen) effecten kunnen moeilijk te
detecteren zijn. Het gebeurt vaak niet bewust, maar zelfs subtiele, onbedoelde vooroordelen kunnen
gevolgen hebben. Observer bias (of scorer bias) kan ook in de natuurwetenschappen voorkomen,
maar is minder waarschijnlijk.
Een derde uitdaging is dat psychologen meestal vertrouwen op samengestelde scores bij het meten
van psychologische kenmerken. Veel van de tests die door psychologen worden gebruikt, omvatten
een reeks vragen, die allemaal bedoeld zijn om een bepaald aspect van een bepaald psychologisch
kenmerk of proces te meten. Het is gebruikelijk om elke vraag een score te geven en vervolgens de
scores bij elkaar op te tellen of te combineren. De totale score vertegenwoordigt de laatste maat van
het relevante construct. Hoewel samengestelde scores voordelen kunnen hebben, bemoeilijken
verschillende problemen het gebruik ervan en hun evaluatie. In de natuurwetenschappen wordt er
minder gebruik gemaakt van samengestelde scores.
Een vierde uitdaging is scoregevoeligheid (verwijst naar het vermogen van een meting om adequaat
onderscheid te maken tussen betekenisvolle hoeveelheden of eenheden van de dimensie die wordt
gemeten). Bijv. als iemand de dikte van een haar wil meten, kan dit niet met een gewone liniaal. Hier
is een gevoeliger meetinstrument voor nodig. Zo kan een psycholoog ook vinden dat een procedure
voor het meten van een psychologisch kenmerk of proces niet gevoelig genoeg is om onderscheid te
maken tussen de echte verschillen die er in het attribuut of proces bestaan (bijv. je wil de emotionele
veranderingen van de cliënt per sessie volgen. Als je een instrument kies die kleine verschillen niet
opmerkt zal mist je misschien kleine maar belangrijke stemmingswisselingen. Je kan dan beter kiezen
4