3.5 – Psychometrie
Furr H1: Psychometrie en het belang van psychologische meting en tests
Psychometrie = principes en concepten van belang voor het creëren van betekenisvolle
en betrouwbare psychologische testen. Psychometrie is dus de wetenschap die zich
bezighoudt met het evalueren van de kenmerken van psychologische tests. Drie
van deze kenmerken staan centraal:
1. Het soort informatie (meestal scores) gegenereerd door het gebruik van
psychologische tests.
2. De betrouwbaarheid van data van psychologische tests. Als we 10x een
intelligentietest geven, meet deze dan ook 10x hetzelfde? Betrouwbaarheid wil
iedere keer hetzelfde krijgen en wil een zo klein mogelijk X E betekent ruisvrij
meten.
3. Kwesties met betrekking tot de validiteit van data verkregen met psychologische
tests. Validiteit is dat je meet wat je wilt meten. Het kan niet zijn dat iets valide is
en niet betrouwbaar. Als iets valide is, is het altijd betrouwbaar. Betrouwbaarheid
is een voorwaarde voor validiteit. Validiteit vraagt of XT daadwerkelijk is wat je wilt
meten.
Psychometrie gaat over de procedures die gebruikt worden om de kenmerken van tests
in te schatten en te evalueren. Psychometrie is het onderzoek naar de activiteiten en
procedures die gebruikt worden om variëteit in gedrag te meten en deze metingen te
verbinden aan psychologische fenomenen. Psychologische metingen kunnen van
groot belang zijn voor beslissingen over het leven van mensen en zijn de kern van
wetenschappelijk onderzoek, dus moeten zorgvuldig worden onderzocht. Door het grote
bereik en het belang van psychologische metingen, is het cruciaal om de eigenschappen
te begrijpen die de kwaliteit van psychologische metingen beïnvloeden. Voorbeeld: IQ-
test kan bepalen of iemand intellectueel kan functioneren en dit kan in bepaalde
gebieden bepalen of iemand de doodstraf kan krijgen.
Observeerbaar gedrag en niet-observeerbare psychologische kenmerken
Psychologen gebruiken psychologische tests als instrument om observeerbare
gebeurtenissen in de fysieke wereld te meten. In de gedragswetenschappen zijn deze
waarneembare gebeurtenissen typisch een soort gedrag. Er zijn twee soorten
gedragsmetingen:
1. Observeren van gedrag uit interesse voor dat specifieke zichtbare gedrag (bijv.
interesse in gezichtsuitdrukkingen).
2. Observeren van gedrag om niet-observeerbare, onderliggende
psychologische kenmerken te onderzoeken (bijv. depressie of geheugen). Hierbij
zijn drie dingen van toepassing:
1) Er wordt een gevolgtrekking gemaakt tussen een observeerbare gedraging en
een niet-observeerbaar psychologisch kenmerk. Als deze gevolgtrekking
, redelijk is, heeft de interpretatie van het gedrag een graad van validiteit.
Hoewel validiteit een kwestie van graad is, is de interpretatie van de scores op
de meting valide als de scores van een meting de mentale toestand of het
mentale proces lijken te meten waarvan we denken dat ze het meten.
2) Meting in de psychologie bevat vaak, maar niet altijd, een bepaald soort
theorie waarin psychologische kenmerken, processen of toestanden
gerelateerd worden aan observeerbaar gedrag waarvan gedacht wordt dat het
verschillen in het psychologische kenmerk reflecteert.
3) Psychologen gebruiken vaak theoretische concepten om verschillen in
menselijk gedrag te verklaren hypothetische constructen of latente
variabelen: theoretische psychologische kenmerken, attributen, processen of
toestanden die niet direct kunnen worden waargenomen (bijv. leren,
intelligentie, zelfrespect, dromen, attitudes en gevoelens). De procedures die
worden gebruikt om deze hypothetische constructen te meten worden
operationele definities genoemd.
Voorbeeld: werkgeheugen is een niet-observeerbaar psychologisch kenmerk. Om
werkgeheugen te identificeren worden er andere observeerbare kenmerken
geobserveerd die ons in staat stellen om werkgeheugen te meten.
Psychologische metingen: definities en soorten
Een psychologische test is een systematische procedure om het gedrag van twee of meer
mensen te vergelijken. Deze definitie heeft drie belangrijke componenten:
1. Tests omvatten steekproeven van een bepaald soort gedraging.
2. De gedragssteekproeven moeten verzameld worden op een systematische
manier.
3. Het doel van de tests is om gedragingen van twee of meer mensen te vergelijken
(interindividuele verschillen) of vergelijkingen binnen dezelfde persoon te
maken op verschillende tijden of onder verschillende omstandigheden (intra-
individuele verschillen).
Testen kunnen op verschillende manieren ingedeeld worden, wat ook consequenties kan
hebben voor de methoden die worden gebruikt om de kwaliteit van de test te meten.
Inhoud: wat wordt er gemeten, bijv. prestatietests, geschiktheidstests,
persoonlijkheidstests en intelligentietests.
Type reactie dat vereist is: bijv. meerkeuze of open vragen.
Methoden die worden gebruikt om tests uit te voeren: bijv. individueel of
groepsgewijs.
Beoogde doel van testscores:
Criteria-referentie (domeinreferentie) tests: situaties waarin een
beslissing gemaakt wordt over het vaardigheidsniveau van een persoon.
Via een vaste, vooraf bepaalde grenswaarde (cutoff testscore) worden
mensen ingedeeld in twee groepen: (1) personen waarvan hun prestatie de
grenswaarde overstijgen en (2) personen met een score gelijk of onder de
grenswaarde. De grenswaarde noemt men de cut-off waarde.
2
, Norm-referentie tests worden meestal gebruikt om de testscore van een
persoon te vergelijken met scores van een referentiesteekproef of een
normatieve steekproef, om te begrijpen hoe de persoon zich verhoudt tot
andere mensen. Kenmerken van een referentiesteekproef worden
verondersteld representatief te zijn voor een welbepaalde populatie. De
testscore van een persoon wordt vergeleken met de verwachte of
gemiddelde score op de test dat wordt behaald als de test wordt
afgenomen bij alle leden van de populatie. Scores op normatieve tests zijn
van minder waarde als de referentiesteekproef niet representatief is voor
sommige mensen van de populatie, als de populatie van belang niet goed
gedefinieerd is, of als er twijfel is dat de persoon die getest wordt een lid is
van de relevante populatie. In principe doen geen van zulke problemen
zich voor als een score wordt geëvalueerd aan de hand van criteria-
referentie.
In de praktijk is het onderscheid tussen norm- en criteria-gerelateerde tests vaak
vaag. Grenswaarden zijn in zekere zin altijd ‘genormeerd’: criteria voor een cutoff
score wordt niet willekeurig bepaald. De cutoff-score wordt gekoppeld aan een
beslissingscriterium op basis van een standaard of verwacht prestatieniveau van
mensen die de test kunnen afleggen. Het onderscheid tussen criterium- en norm-
gerefereerde tests wordt nog vager als scores van norm-gerefereerde tests
worden gebruikt als cutoff-scores.
Type test:
Speeded-tests: tijdsgebonden tests.
Niet verwacht dat de hele test af is binnen een bepaald tijdsbestek.
Speeded tests worden gescoord door het tellen van het aantal
vragen die beantwoord zijn in de toegestane tijd.
Grote kans dat elke vraag juist beantwoord is elke vraag is van
vergelijkbare moeilijkheid.
Power-tests: niet-tijdsgebonden tests.
Verwacht dat alle testvragen beantwoord zijn.
Power tests worden vaak gescoord door het tellen van het aantal
goede antwoorden.
Testitems moeten in moeilijkheidsgraad variëren als scores op deze
tests gebruikt worden om verschillen te ontdekken tussen mensen
op een bepaald psychologisch kenmerk.
Indicator van vorming of oorzaak:
Indicator van formative/vormend: er wordt gemeten wat een bepaald
construct vormt, bijvoorbeeld: om SES te meten wordt inkomen,
opleidingsniveau en werkstatus gevraagd. Dit wordt niet veroorzaakt door
SES, maar bepaald SES.
Indicator van oorzaak/causal: er wordt gemeten wat veroorzaakt wordt
door een bepaald construct, bijvoorbeeld: op intelligentietest worden
dingen gemeten zoals verbaal vermogen, dat verwacht veroorzaak te
worden door intelligentie.
3
, Uitdagingen om te meten bij sociale wetenschappen die ervoor zorgen dat meten
moeilijk is
Alle metingen worden beïnvloed door verschillende uitdagingen die de accuraatheid van
metingen kunnen verminderen. Ondanks de overeenkomsten tussen verschillende
wetenschappen, hebben metingen in de gedragswetenschappen speciale uitdagingen die
(bijna) niet bestaan in andere wetenschappen (bijv. natuurkunde), omdat de dingen die
we meten onzichtbaar zijn:
▲ Identificeren en vangen van psychologische attributen in een enkel getal:
verondersteld dat bepaalde psychologische kenmerken gemeten en in een getal
uitgedrukt kunnen worden. Getallen geven een objectief gevoel, terwijl ze juist
contextafhankelijk zijn. Er wordt vanuit gegaan dat alles op één spectrum ligt.
▲ Participant reactiviteit: mensen zijn zich vaak bewust van de meting, dit kan
ervoor zorgen dat ze op een andere manier reageren en leidt tot beïnvloeding van
de psychologische staat of het proces die gemeten wordt. Participant reactiviteit
kan verschillende vormen aannemen:
o Vraagkenmerken (demand characteristics): participanten proberen het doel
van de onderzoeker te achterhalen veranderen hun gedrag om aan te
sluiten bij de onderzoeker.
o Sociale wenselijkheid: participanten veranderen hun gedrag om indruk te
maken op de persoon die de test afneemt.
o Malingering: participanten veranderen hun gedrag om een slechte indruk
te maken op de persoon die de test afneemt.
In elk geval is de validiteit van de meting in het geding: het ‘ware’ psychische
kenmerk van de persoon wordt verborgen door een tijdelijke motivatie of staat
die een reactie is op de handeling zelf die wordt gemeten. Een ander
voorbeeld is het feit dat je over iets getest wordt, dat je erover na gaat denken
en dat je score daardoor beïnvloed wordt.
▲ Bias en verwachtingen bij de onderzoeker (objectiviteit): de mensen die
gedragsgegevens verzamelen (bijv. bij observatie, testscore of het interpreteren
van een verbale respons) kunnen bias en verwachtingen hebben. Effecten hiervan
zijn moeilijk om te ontdekken. In veel gevallen zijn de mensen te vertrouwen die
de gedragsgegevens verzamelen, maar zelfs subtiele, onbedoelde vooroordelen
kunnen effect hebben
▲ Samengestelde scores (composite score): veel tests omvatten een reeks vragen
die allemaal bedoeld zijn om een bepaald aspect of een bepaald psychologisch
kenmerk of proces te meten. Dit komt omdat psychologische fenomenen complex
zijn en verschillende aspecten hebben (bijv. ‘persoonlijkheid’ bestaat uit heel veel
kenmerken en karakteristieken). Een composite score is een score die opgebouwd
is uit meerdere tests en gaat ervanuit dat ieder item voor even veel telt. Hierbij
kan er afgevraagd worden of dat wel een goede maat is. De vraag is of één item
goed één stapje meer is op het onderliggende construct. Heel vaak weten we niet
of items een even goede indicator zijn en even belangrijk zijn voor een bepaald
psychologisch construct. Bovendien kan dit niet gecontroleerd worden omdat het
psychologisch construct niet gezien kan worden er moet maar vanuit gegaan
worden dat het goed is.
4