3.5 Psychometrie samenvatting Furr & Bacharach
Hoofdstuk 1: Psychometrie en het belang van psychologische meting en tests
Kritisch kijken naar het meetproces à conceptueel.
Meten is moeilijk en een getalletje ergens aan geven, betekent niet dat het ergens op slaat of precies is.
Psychometrie zijn principes en concepten die belangrijk zijn voor het ontwerpen van tests die psychologische betekenis hebben en betrouwbaar zijn.
Psychometrie is de wetenschap die zich bezighoudt met het evalueren van de kenmerken van psychologische tests. Drie van deze kenmerken staan
centraal:
1. Het soort informatie (meestal scores) gegenereerd door het gebruik van psychologische tests.
2. De betrouwbaarheid van data van psychologische tests. Als we 10x een intelligentietest geven, meet deze dan ook 10x hetzelfde?
Betrouwbaarheid wil iedere keer hetzelfde krijgen en wil een zo klein mogelijk XE à betekent ruisvrij meten.
3. Kwesties met betrekking tot de validiteit van data verkregen met psychologische tests. Validiteit is dat je meet wat je wilt meten. Het kan niet
zijn dat iets valide is en niet betrouwbaar. Als iets valide is, is het altijd betrouwbaar. Betrouwbaarheid is een voorwaarde voor validiteit.
Validiteit vraagt of XT daadwerkelijk is wat je wilt meten.
Psychometrie gaat over de procedures die gebruikt worden om de kenmerken van tests in te schatten en te evalueren. Psychometrie is het onderzoek
naar de activiteiten en procedures die gebruikt worden om variëteit in gedrag te meten en deze metingen te verbinden aan psychologische fenomenen.
Psychologische metingen kunnen van groot belang zijn voor beslissingen over het leven van mensen en zijn de kern van wetenschappelijk onderzoek à
moeten zorgvuldig worden onderzocht. Door het grote bereik en het belang van psychologische metingen, is het cruciaal om de eigenschappen te
begrijpen die de kwaliteit van psychologische metingen beïnvloeden.
Observeerbaar gedrag en niet-observeerbare psychologische kenmerken
Psychologen gebruiken psychologische tests als instrument om observeerbare gebeurtenissen in de fysieke wereld te meten. In de
gedragswetenschappen zijn deze waarneembare gebeurtenissen typisch een soort van gedrag, en gedragsmetingen hebben meestal twee doelen:
1. Observeren van gedrag uit interesse voor dat specifieke zichtbare gedrag (bijv. interesse in gezichtsuitdrukkingen).
2. Observeren van gedrag om niet-observeerbare, onderliggende psychologische kenmerken te onderzoeken (bijv. depressie of geheugen).
Hierbij zijn drie dingen van toepassing:
1) Er wordt een gevolgtrekking gemaakt tussen een observeerbare gedraging en een niet-observeerbaar psychologisch kenmerk. Als
deze gevolgtrekking redelijk is, heeft de interpretatie van het gedrag een graad van validiteit. Hoewel validiteit een kwestie van
graad is, is de interpretatie van de scores op de meting valide als de scores van een meting de mentale toestand of het mentale
proces lijken te meten waarvan we denken dat ze het meten.
2) Meting in de psychologie bevat vaak, maar niet altijd, een bepaald soort theorie waarin
psychologische kenmerken, processen of toestanden gerelateerd worden aan
observeerbaar gedrag waarvan gedacht wordt dat het verschillen in het psychologische
kenmerk reflecteert.
3) Psychologen gebruiken vaak theoretische concepten om verschillen in menselijk gedrag
te verklaren à hypothetische constructen of latente variabelen: theoretische
psychologische kenmerken, attributen, processen of toestanden die niet direct kunnen
worden waargenomen (bijv. leren, intelligentie, zelfrespect, dromen, attitudes en
gevoelens). De procedures die worden gebruikt om deze hypothetische constructen te
meten worden operationele definities genoemd.
Psychologische metingen: definities en soorten
Een psychologische test is een systematische procedure om het gedrag van twee of meer mensen te vergelijken. Deze definitie heeft drie belangrijke
componenten:
1. Tests omvatten steekproeven van een bepaald soort gedraging.
2. De gedragssteekproeven moeten verzameld worden op een systematische manier.
3. Het doel van de tests is om gedragingen van twee of meer mensen te vergelijken (interindividuele verschillen) of vergelijkingen binnen
dezelfde persoon te maken op verschillende tijden of onder verschillende omstandigheden (intra-individuele verschillen).
Testen kunnen op verschillende manieren ingedeeld worden, wat ook consequenties kan hebben voor de methoden die worden gebruikt om de kwaliteit
van de test te meten.
Ë Inhoud: bijv. prestatietests, geschiktheidstests, persoonlijkheidstests en intelligentietests.
Ë Type reactie dat vereist is: bijv. meerkeuze of open vragen.
Ë Methoden die worden gebruikt om tests uit te voeren: bijv. individueel of groepsgewijs.
Ë Beoogde doel van testscores:
• Criteria-referentie (domeinreferentie) tests: situaties waarin een beslissing gemaakt wordt over het vaardigheidsniveau van een
persoon. Via een vaste, vooraf bepaalde grenswaarde (cutoff testscore) worden mensen ingedeeld in twee groepen: (1) personen
waarvan hun prestatie de grenswaarde overstijgen en (2) personen met een score gelijk of onder de grenswaarde.
• Norm-referentie tests worden meestal gebruikt om de testscore van een persoon te vergelijken met scores van een
referentiesteekproef of een normatieve steekproef, om te begrijpen hoe de persoon zich verhoudt tot andere mensen. Kenmerken
van een referentiesteekproef worden verondersteld representatief te zijn voor een welbepaalde populatie. De testscore van een
persoon wordt vergeleken met de verwachte of gemiddelde score op de test dat wordt behaald als de test wordt afgenomen bij
alle leden van de populatie. Scores op normatieve tests zijn van minder waarde als de referentiesteekproef niet representatief is
voor sommige mensen van de populatie, als de populatie van belang niet goed gedefinieerd is, of als er twijfel is dat de persoon
die getest wordt een lid is van de relevante populatie. In principe doen geen van zulke problemen zich voor als een score wordt
geëvalueerd aan de hand van criteria-referentie.
In de praktijk is het onderscheid tussen norm- en criteria-gerelateerde tests vaak vaag. Grenswaarden zijn in zekere zin altijd ‘genormeerd’:
criteria voor een cutoff score wordt niet willekeurig bepaald. De cutoff-score wordt gekoppeld aan een beslissingscriterium op basis van een
standaard of verwacht prestatieniveau van mensen die de test kunnen afleggen.Het onderscheid tussen criterium- en norm-gerefereerde tests
wordt nog vager als scores van norm-gerefereerde tests worden gebruikt als cutoff-scores.
Ë Type test:
• Speeded-tests: tijdsgebonden tests.
o Niet verwacht dat de hele test af is binnen een bepaald tijdsbestek.
o Speeded tests worden gescoord door het tellen van het aantal vragen die beantwoord zijn in de toegestane tijd.
o Grote kans dat elke vraag juist beantwoord is à elke vraag is van vergelijkbare moeilijkheid.
• Power-tests: niet-tijdsgebonden tests.
o Verwacht dat alle testvragen beantwoord zijn.
o Power tests worden vaak gescoord door het tellen van het aantal goede antwoorden.
, o Testitems moeten in moeilijkheidsgraad variëren als scores op deze tests gebruikt worden om verschillen te ontdekken
tussen mensen op een bepaald psychologisch kenmerk.
Uitdagingen om te meten bij sociale wetenschappen die ervoor zorgen dat meten moeilijk is
Alle metingen worden beïnvloed door verschillende uitdagingen die de accuraatheid van metingen kunnen verminderen. Ondanks de overeenkomsten
tussen verschillende wetenschappen, hebben metingen in de gedragswetenschappen speciale uitdagingen die (bijna) niet bestaan in andere
wetenschappen (bijv. natuurkunde), omdat de dingen die we meten onzichtbaar zijn:
Ë Identificeren en vangen van psychologische attributen in een enkel getal: verondersteld dat bepaalde psychologische kenmerken gemeten en
in een getal uitgedrukt kunnen worden. Getallen geven een objectief gevoel, terwijl ze juist contextafhankelijk zijn. Er wordt vanuit gegaan dat
alles op één spectrum ligt.
Ë Participant reactiviteit: mensen zijn zich vaak bewust van de meting à kan ervoor zorgen dat ze op een andere manier reageren à
beïnvloeding van de psychologische staat of het proces die gemeten wordt. Participant reactiviteit kan verschillende vormen aannemen:
• Vraagkenmerken (demand characteristics): participanten proberen het doel van de onderzoeker te achterhalen à veranderen hun
gedrag om aan te sluiten bij de onderzoeker.
• Sociale wenselijkheid: participanten veranderen hun gedrag om indruk te maken op de persoon die de test afneemt.
• Malingering: participanten veranderen hun gedrag om een slechte indruk te maken op de persoon die de test afneemt.
In elk geval is de validiteit van de meting in het geding: het ‘ware’ psychische kenmerk van de persoon wordt verborgen door een tijdelijke
motivatie of staat die een reactie is op de handeling zelf die wordt gemeten. Een ander voorbeeld is het feit dat je over iets getest wordt, dat
je erover na gaat denken en dat je score daardoor beïnvloed wordt.
Ë Bias en verwachtingen bij de onderzoeker (objectiviteit): de mensen die gedragsgegevens verzamelen (bijv. bij observatie, testscore of het
interpreteren van een verbale respons) kunnen bias en verwachtingen hebben. Effecten hiervan zijn moeilijk om te ontdekken. In veel gevallen
zijn de mensen te vertrouwen die de gedragsgegevens verzamelen, maar zelfs subtiele, onbedoelde vooroordelen kunnen effect hebben.
Ë Samengestelde scores (composite score): veel tests omvatten een reeks vragen die allemaal bedoeld zijn om een bepaald aspect of een
bepaald psychologisch kenmerk of proces te meten. Dit komt omdat psychologische fenomenen complex zijn en verschillende aspecten
hebben (bijv. ‘persoonlijkheid’ bestaat uit heel veel kenmerken en karakteristieken). Een composite score is een score die opgebouwd is uit
meerdere tests en gaat ervanuit dat ieder item voor even veel telt. Hierbij kan er afgevraagd worden of dat wel een goede maat is. De vraag
is of één item goed één stapje meer is op het onderliggende construct. Heel vaak weten we niet of items een even goede indicator zijn en
even belangrijk zijn voor een bepaald psychologisch construct. Bovendien kan dit niet gecontroleerd worden omdat het psychologisch
construct niet gezien kan worden à er moet maar vanuit gegaan worden dat het goed is.
Ë Score sensitiviteit: of vragenlijsten ‘gevoelig’ genoeg zijn om verschillen tussen mensen te meten. Sensitiviteit refereert naar het vermogen van
een meting om een adequaat onderscheid te maken tussen betekenisvolle eenheden of hoeveelheden van de dimensie die gemeten wordt.
Een psycholoog kan vinden dat een procedure voor het meten van een psychologisch kenmerk of proces mogelijk niet gevoelig genoeg is om
onderscheid te maken tussen de echte verschillen die bestaan in het kenmerk of proces (bijv. een ‘ja- of nee-antwoord’ versus een ‘7-punten
schaal). Voor psychologen is dit probleem van sensitiviteit groter, omdat er niet geanticipeerd kan worden op de omvang van betekenisvolle
verschillen die samenhangen met de gemeten mentale eigenschappen. Hoewel dit probleem ook kan voorkomen in andere wetenschappen,
zijn andere wetenschappers zich hier meestal van bewust. Sociale wetenschappers daarentegen zijn misschien niet op de hoogte van de
schaalgevoeligheid, zelfs niet nadat ze hun metingen hebben verzameld. We weten niet hoe het construct eruitziet à we weten niet welk item
het beste meet à we weten niet of een item een stap extra oplevert à we weten niet of we sensitief genoeg aan het meten zijn.
Ë Gebrek aan bewustheid van belangrijke psychometrische informatie: in de gedragswetenschappen, vooral bij de toepassing ervan, is
psychologische meting vaak een sociale of culturele activiteit: het wordt vaak gebruik om de informatiestroom tussen mensen te faciliteren.
Echter, een meting wordt vaak uitgevoerd met weinig of geen aandacht voor de psychologische kwaliteit van tests. Mensen zijn zich er niet
van bewust hoe moeilijk meten is. Er wordt vaak onderzoek gedaan op basis van meetinstrumenten die helemaal niet goed zijn.
, Deel I. Basisconcepten bij meten
Hoofdstuk 2: Schalen (scaling): dit gebruiken we om te verhullen dat het meten moeilijk is
Elk psychologisch kenmerk bestaat in een bepaalde hoeveelheid. Psychologische meting kan gezien worden als een proces waarbij getallen worden
toegewezen om de hoeveelheden psychologische kenmerken weer te geven. Het meetproces slaagt als de nummers die zijn toegewezen aan een
kenmerk de werkelijke hoeveelheid van dat kenmerk weergeven.
Schalen (scaling) is de manier waarop numerieke waarden toegewezen worden aan psychologische kenmerken. De manier waarop wetenschappers en
onderzoekers gebruik maken van en dingen afleiden uit testen, hangt voor een groot deel af van de meetschalen die worden gebruikt.
Bij het gebruik van cijfers moet er met een aantal dingen rekening gehouden worden:
Ë Identiteit.
Ë Volgorde.
Ë Kwantiteit.
Ë De betekenis van nul.
Ë Eenheid van meting.
Fundamentele problemen met nummers of getallen
Bij psychologische metingen worden nummers gebruikt om een individueel niveau van een psychologisch kenmerk uit te drukken (bijv. IQ voor
intelligentie).
Eigenschappen van cijfers:
Ë Het eigendom van identiteit: de meest eenvoudige metingen differentiëren tussen categorieën van mensen. De individuen in een categorie
moeten hetzelfde zijn in termen van een gedeeld psychologisch kenmerk, maar ze moeten verschillen van individuen in een andere categorie.
In psychologie vereist dit dat we mensen sorteren in minimaal twee categorieën.
• Het idee is dat objecten of gebeurtenissen ingedeeld kunnen worden in categorieën die gebaseerd zijn op gelijke kenmerken. In
veel gevallen zijn deze kenmerken gedragskarakteristieken die psychologische kenmerken reflecteren (bijv. blij, verdrietig, introvert
en extravert).
• Er zijn een aantal regels voor het sorteren van mensen in categorieën:
I. Identiek: alle mensen binnen een bepaalde categorie moeten ‘identiek’ zijn met betrekking tot het kenmerk dat de
categorie weerspiegeld. Identiek is moeilijk, omdat er heel veel verschillende manieren zijn om dezelfde totale score te
krijgen op een vragenlijst door een combinatie van verschillende antwoorden. Het betekent niet per se dat je even veel
hebt van een onderliggend construct.
II. Wederzijdse exclusiviteit tussen de categorieën.
III. Uitputtende categorieën: je moet kunnen scoren.
De tweede en derde samengevat is dat elke persoon slechts binnen één enkele categorie moet kunnen vallen.
• Op dit niveau dienen cijfers alleen als labels van categorieën (dus geen numerieke waarde). De categorieën kunnen worden
gelabeld met letters, namen of cijfers. Als er categorische verschillen tussen mensen gemaakt worden, representeren de verschillen
tussen leden van verschillende categorieën alleen verschillen in soort of kwaliteit en geen verschillen in hoeveelheid.
Ë Het eigendom van volgorde: als nummers de volgorde bezitten, drukken ze informatie uit over de relatieve hoeveelheid van een kenmerk dat
mensen bezitten. Nummers geven dan de rangorde aan van mensen ten opzichte van elkaar langs een bepaalde dimensie.
• Als cijfers worden gebruikt om de volgorde aan te geven, dienen de cijfers opnieuw in wezen als labels. Elke persoon in een groep
mensen ontvangt een cijfer (of letter) die de relatieve status van die persoon binnen de groep aangeeft met betrekking tot een
bepaald kenmerk.
• Hoewel het eigendom van volgorde meer informatie overbrengt dan het eigendom van identiteit, is het nog steeds vrij beperkt.
Hoewel het de relatieve hoeveelheid verschillen tussen mensen vertelt, vertelt het niet over de feitelijke mate van verschillen in dat
kenmerk. Wanneer cijfers de eigenschap van orde hebben, zijn ze nog steeds een nogal onnauwkeurige manier om psychologische
verschillen weer te geven.
Ë Het eigendom van kwantiteit: als nummers kwantiteit bezitten, bieden ze informatie over de omvang van verschillen tussen mensen. Op dit
niveau weergeven getallen echte nummers. Het cijfer 1 wordt gebruikt om de grootte van de basiseenheid op een bepaalde schaal te
definiëren. Alle andere waarden op de schaal zijn veelvouden van 1. Elk cijfer vertegenwoordigt een telling van basiseenheden.
• Meeteenheden zijn gestandaardiseerde hoeveelheden: de grootte van een eenheid wordt bepaald door afspraken.
• Echte getallen zijn continu: in principe kan elk reëel getal worden verdeeld in oneindig kleine delen. In de context van metingen
worden reële getallen vaak aangeduid als scalair, metrisch of kardinaal, of soms eenvoudigweg als kwantitatieve waarden.
• De kracht van reële getallen komt voort uit het feit dat ze kunnen worden gebruikt om de hoeveelheid van een kenmerk van een
ding, persoon of gebeurtenis te meten. Een reëel getal geeft de hoeveelheid van iets aan.
Het getal 0 kan twee mogelijke betekenissen hebben:
1. Absolute nul: het geeft een toestand weer waarin een kenmerk of een object niet bestaat.
2. Relatieve of arbitraire/willekeurige nul: een arbitrair punt op een schaal dat gebruikt wordt
om een kenmerkt te meten (bijv. 0 °C). Deze vorm komt het meest voor in psychologisch
onderzoek, want er is vaak sprake van een relatief nulpunt (bijv. het gemiddelde van een
verdeling van z-scores is altijd nul, waarbij nul relatief of arbitrair is).
In de psychologie is een serieus probleem bij het bepalen of nul als relatief of absoluut moet worden
beschouwd. Het probleem betreft het onderscheid tussen de kenmerken van een test die wordt gebruikt om een psychologisch kenmerk te meten en de
kenmerken van het psychologische kenmerk dat wordt gemeten. Interpretaties van een score op een psychologische test worden beïnvloed bij het soort
nul dat geassocieerd wordt met die test.
Eenheden van meting
Bij psychologische metingen zijn de eenheden van de meting niet altijd voor de hand liggend.
Willekeurigheid is een belangrijk concept bij het begrijpen van meeteenheden en onderscheidt verschillende soorten meeteenheden. Er zijn vier
manieren waarop een meeteenheid willekeurig of arbitrair kan zijn:
1. De grootte van de eenheid kan willekeurig zijn (bijv. de willekeurige keuze voor hoeveel gram er in een pond zit).
2. Sommige meeteenheden zijn niet gebonden aan een bepaald type object: er is mogelijk geen noodzakelijke beperking op de objecten waarop
een meeteenheid kan worden toegepast (bijv. een pond kan gebruikt worden om verschillende soorten objecten te wegen).
3. Als ze een fysieke vorm aannemen, kunnen sommige meeteenheden worden gebruikt om verschillende kenmerken van objecten te meten.
4. De richting van de meeteenheid. Vaak betekent ‘meer’ (op een item), meer van een onderliggend construct, maar dit is niet altijd het geval
(bijv. reversed items in een vragenlijst).
, Eenheden van meting, zogenaamde standaardmetingen, zijn gebaseerd op willekeurige eenheden van metingen op alle manieren als ze gaan over een
fysieke eigenschap (bijv. pond, liter en milliseconde). Het feit dat ze uitgedrukt worden in willekeurige eenheden geeft hen flexibiliteit en algemeenheid.
In tegenstelling tot de meeste fysieke metingen, zijn de meeste psychologische eenheden van meting (bijv. testscores op een intelligentietest) alleen
willekeurig op de grootte van de eenheid: de meeste psychologische eenheden voor meting zijn willekeurig in grootte, maar zijn specifiek gerelateerd
aan specifieke (kenmerken van) objecten of dimensies (bijv. de dimensie van IQ is niet toepasbaar op een ander psychologisch kenmerk).
Additiviteit en tellen
Additiviteit is het tellen van eenheden om een score te verkrijgen bij een meting en vereist een aantal voorwaarden:
Ë De grootte van de eenheid mag niet veranderen: alle getelde eenheden moeten identiek zijn à de grootte van de eenheid moet constant
blijven: een eenheidstoename op een bepaald punt in het meetproces moet hetzelfde zijn als een eenheidstoename op een ander punt.
Ë De grootte van meeteenheid mag niet veranderen als de omstandigheden van het meten veranderen. Deze discrepantie treedt op als de
meting niet constant is in termen van het onderliggende attribuut dat ze beogen weer te geven.
Als het gaat over meten binnen de sociale wetenschap, gaat het niet over tellen, maar over meten: we willen meten hoeveel iemand van iets heeft. Alle
metingen zijn gebaseerd op tellen, maar niet alle vormen van tellen kwalificeren meten. Dit komt omdat wat we willen weten, we niet direct kunnen zien.
Paradox: binnen de sociale wetenschappen willen we de hoeveelheid psychologisch kenmerk vertalen in een verzameling van nummers om het kenmerk
te meten, maar we weten niet hoe veel van het kenmerk daadwerkelijk bestaat.
Vier schalen van metingen
Meting omvat het toekennen van getallen aan observaties op een manier dat de getallen de werkelijke verschillen weergeven die bestaan tussen de
niveaus van een psychologisch attribuut. Schalen is de specifieke manier waarop getallen worden gekoppeld aan gedragsobservaties om een maat te
creëren.
Er zijn verschillende niveaus en schalen van metingen:
1. Nominale schalen: cijfers die de eigenschap van identiteit hebben, worden gebruikt om observaties te labelen waarin gedrag volgens een
psychologisch kenmerk in categorieën is gesorteerd. Nominale schalen worden gebruikt om groepen van mensen te identificeren die een
kenmerk delen die niet gedeeld wordt door mensen in een andere groep.
2. Ordinale schalen: definieert meting in termen van cijfers die de eigenschap van volgorde hebben: ordinale schalen produceren rangen waarin
mensen worden geordend volgens de hoeveelheden van een kenmerk dat ze bezitten.
3. Intervalschalen: gebaseerd op getallen die kwantitatieve verschillen tussen mensen vertegenwoordigen in termen van het kenmerk dat wordt
gemeten, met een willekeurig nulpunt. In intervalschalen is de grootte van de eenheid of meting constant en additief, maar de schaal staat
geen multiplicatie interpretaties toe (bijv. 40 graden is niet twee keer zo warm als 20 graden).
4. Ratioschalen: gebaseerd op getallen die kwantitatieve verschillen tussen mensen vertegenwoordigen in termen van het kenmerk dat wordt
gemeten, met een absoluut nulpunt. Ratioschalen worden beschouwd als een ‘hoger’ meetniveau dan interval-, ordinale en nominale schalen,
omdat ze meer informatie bieden en meer geavanceerde conclusies mogelijk maken (additief en multiplicatief: 2 m is 2x verder dan 4 m).
Niveau van meting Eigendom van identiteit Eigendom van volgorde Eigendom van hoeveelheid Absoluut nulpunt Voorbeeld
Nominaal P Geslacht
Ordinaal P P Opleidingsniveau
Interval P P P Temperatuur
Ratio P P P P Afstand