Testen en meten
H1 Psychometrics and the Importance of Psychological Measurement
Iedereen krijgt wel eens te maken met psychologische testen. En in extreme gevallen kan de uitkomst van zo’n
test bepalen of je de doodstraf krijgt in bepaalde landen. Dit is natuurlijk een extreem geval, maar
psychologische testen zijn wel heel belangrijk (denk aan studie/gezondheid etc.). Het is daarom van belang dat
deze testen van hoge kwaliteit zijn. Dit boek gaat over het begrijpen of de hulpmiddelen en procedures van deze
testen inderdaad sterk zijn, betekenis hebben of betrouwbaar zijn. Deze principes en concepten worden ook wel
psychometrie genoemd.
Het is voor een gedragswetenschapper belangrijk om psychologische testen juist en accuraat te interpreteren.
Deze testen zijn de kern van een onderzoeksproces, als iets niet juist gemeten is of helemaal niet gemeten, dan
heeft een onderzoek geen wetenschappelijke validiteit. Dit boek gaat over de belangrijke attributen van de
instrumenten die psychologen gebruiken om psychologische attributen en processen te meten.
Geobserveerd gedrag en niet geobserveerde psychologische attributen
Gedragsonderzoekers gebruiken psychologische testen voor twee redenen, één is omdat ze geïnteresseerd zijn in
een specifiek gedrag zoals gezichtsuitdrukkingen. Maar in de meeste gevallen zijn ze geïnteresseerd in gedrag
dat niet direct te meten is, zoals intelligentie, depressie, extraversie, kennis etc. Deze onderliggende
psychologische attributen worden dan gelinkt aan gedrag waarvan onderzoekers denken dat het gedrag de
onderliggende psychologische attributen representeert, zoals een IQ-test. Als deze testen daadwerkelijk de
onderliggende psychologische attributen meet dan zeggen we dat de interpretatie op de score van deze metingen
valide is. Het meetbaar maken van deze psychologische attributen heet operationaliseren.
Psychologische testen: Definitie en Typen
Volgens Cronbach (1960) is een psychologische test ‘een systematische procedure voor het vergelijken van
gedrag van twee of meer personen’, er zitten drie belangrijke componenten in. Namelijk dat het systematisch is,
het gaat om gedrag en het gaat om het vergelijken van gedrag. Over het laatste zegt het boek dat zij het zouden
veranderen naar het vergelijken van gedrag van een individu op verschillende tijdstippen. In het boek zal dit
telkens terugkomen; interindividual differences (vergelijking van mensen) en intraindividual differences
(vergelijken van het individu).
➢ Systematisch
➢ Gaat over gedrag
➢ Vergeleken met jezelf of iemand anders
Typen testen
Testen kunnen verschillen in dimensies (intelligentie/persoonlijkheid), hoe er beantwoord wordt
(openvragen/gesloten vragen) en de methode (individuele observatie/groepsobservatie). Een ander
veelvoorkomend verschil is het beoogde doel; het kan dan wel criterion referenced of norm referenced zijn. Het
belangrijkste verschil is dat norm referenced verwijst naar hoe de score van een student zich verhoudt tot die van
andere studenten zoals de WISQ, terwijl criterion referenced verwijst naar hoe de score van een student zich
verhoudt tot een criterium, zoals een vooraf bepaalde norm of doel (examen op uni). Bij norm referenced worden
de studenten uit een steekproef met elkaar vergeleken, ook wel een reference sample genoemd. Wanneer deze
steekproef niet representatief is voor de populatie is de norm reference niet relevant.
Er bestaat nog een verschil, namelijk speeded tests en power tests. Bij speeded tests gaat het erom dat zoveel
mogelijk antwoorden worden gegeven in een bepaalde tijd (niet alle antwoorden hoeven te worden beantwoord
en de moeilijkheidsgraad bij de vragen zijn gelijk), terwijl bij power tests elke vraag beantwoord moet worden
en er geen tijd aan verbonden is.
Psychometrie; wat is Psychometrie?
Dit boek focust zich niet op het proces van het afnemen van een test, maar op de psychologische test zelf. Er zal
ook niet worden ingegaan op specifieke psychologische testen, alleen als voorbeeld wanneer een bepaald
principe uitgelegd moet worden. In kort, er wordt gefocust op de attributen van testen. Er zijn drie belangrijke
attributen: (1) het type informatie (vaak scoren) verkregen bij de psychologische tests, (2) de
betrouwbaarheid van de data van psychologische tests en (3) problemen met betrekking tot de validiteit
van de data verkregen van psychologische tests.
Een kleine geschiedenis van Psychometrie
Psychometrie is gebouwd op twee belangrijke fundamenten. De eerste is doordat er in de afgelopen 100 jaar een
enorme toename is geweest van de psychologische testen kwam er een verlangen naar hoge-kwaliteit testen en
,het evalueren en verbeteren ervan, dit verlangen inspireerde de ontwikkeling van psychometrie, waarbij het gaat
om de concepten en hulpmiddelen voor het verbeteren van psychologische testen. Ten tweede is het de
ontwikkeling van statistische concepten en procedures geweest. Sinds de 19e eeuw begonnen geleerden
manieren te vinden om al die verkregen data van de psychologische testen beter te begrijpen, denk hierbij
aan het ontstaan van de correlatiecoëfficiënt of standaarddeviatie.
Uitdagingen bij het Meten in de Psychologie
Een uitdaging is dat bij gedragswetenschappen het gaat om complexe constructen waarbij er meerdere aspecten
aan het construct ten grondslag liggen. En al deze verschillende aspecten/attributen moeten worden
ondergebracht onder een enkel ‘nummer’. Vergelijk zelfvertrouwen met het opmeten van lengte, zelfvertrouwen
wordt gemeten aan de hand van meerdere concepten terwijl het opmeten van lengte alleen wordt gekeken naar
cm. Ten tweede kan er bias ontstaan door de participant zelf. As het construct racisme wordt gemeten kan een
participant, omdat het sociaal wenselijk is, anders reageren dan hij in werkelijkheid is. Maar de bias kan ook
ontstaan door de observant zelf. Ten derde gebruiken gedragswetenschappers samengestelde scores (composite
scores). Een samengestelde score is een enkele variabele of gegevenspunt dat een combinatie van
informatie uit meerdere variabelen of gegevenspunten vertegenwoordigt. Met andere woorden, het is een
enkele score die is afgeleid van meerdere stukjes informatie. En deze composite score kent veel voordelen maar
ook nadelen, later wordt hier dieper op ingegaan. Een vierde uitdaging is score intensiteit. Het is belangrijk om
bij een test genoeg antwoordmogelijkheden worden gegeven om de intensiteit van de score juist te weergeven,
denk aan het voorbeeld waarbij er alleen goed of slecht als antwoord gegeven kon worden i.p.v. de cijfers 1 t/m
10, waarbij 10 heel goed is.
De Belangrijkheid van Individuele Verschillen
Het belang van individuele verschillen is omdat een testscore van iemand alleen betekenis krijgt in de context
met andere individuen.
H2 Schalen
De standaarddefinitie van meten die in de meeste teksten wordt aangetroffen luidt: ‘Meten is het toekennen van
cijfers aan objecten of gebeurtenissen volgens regels’. In de gedragswetenschappen gaat het voornamelijk over
gebeurtenissen en die gebeurtenissen zijn vaak gedragingen. De ‘regels’ verwijzen meestal naar meetschalen. Dit
hoofdstuk gaat over schalen, dat betrekking heeft op de manier waarop numerieke waarden worden
toegekend aan psychologische attributen. Er wordt besproken hoe cijfers kunnen worden gebruikt om
psychologische attributen weer te geven en de problemen die gepaard gaan met het verbinden van deze twee
componenten.
Fundamentele problemen met getallen
Het is belangrijk om je ervan bewust te zijn dat cijfers de psychologische attributen op verschillende manieren
kan weergeven. In deze sectie worden de belangrijkste eigenschappen van cijfers toegelicht. Er zijn drie
belangrijke eigenschappen; identiteit, orde en kwantiteit. Daarnaast is 0 een complex getal, het kan verschillende
betekenissen hebben in verschillende contexten.
De Eigenschap Identiteit
Het idee is dat objecten of gebeurtenissen kunnen worden gesorteerd in categorieën die gebaseerd zijn op
gelijkenissen van kenmerken. Vaak gedragskenmerken die psychologische eigenschappen weerspiegelen. Blij
vs. boos. Er zijn een aantal regels waaraan gehouden moet worden. Ten eerste moet het voldoen aan de
eigenschap identiteit, alle mensen binnen een bepaalde categorie moeten ‘identiek’ zijn met betrekking tot het
kenmerk dat door de categorie wordt weerspiegeld. Ten tweede moeten de categorieën elkaar uitsluiten, je kan
niet als persoon in alle categorieën zitten. Ten derde moeten de categorieën uitputtend zijn, het kan niet zo zijn
dat iedereen in een categorie past of niemand in een categorie past. Samengevat, elke persoon valt slecht maar in
één categorie. Op dit niveau dienen cijfers eenvoudigweg als labels van categorieën, het heeft geen kwantitatieve
betekenis maar alleen informatie over of twee individuen vergelijkbaar of verschillend zijn en niets meer.
Vaak of een bepaalde eigenschap wel of niet aanwezig is.
De Eigenschap van Orde
Deze eigenschap brengt meer informatie dan de vorige eigenschap. Wanneer cijfers de eigenschap van orde
beschikken, geven ze de rangorde van mensen ten opzichte van elkaar langs een bepaalde dimensie. Bijv. het
cijfer 1 kan worden toegewezen aan een persoon die meer eigenschappen bezit dan iemand anders in de groep.
En het cijfer 2 kan worden toegewezen aan de persoon met de volgende grootste aantal van het attribuut
enzovoort. Maar cijfers kunnen net zo goed letters zijn, het gaat om de rangorde.
,De Eigenschap van Kwantiteit
Deze eigenschap geeft nog meer informatie dan de vorige eigenschappen. Deze eigenschap geeft informatie over
de grootte van verschillen tussen mensen. Op dit niveau weerspiegelen cijfers reële getallen. Men zegt ook dat
reële getallen continue zijn, dus elk reel getal kan worden verdeeld in oneindig kleine delen. Het geeft de
hoeveelheid van een attribuut aan.
Het getal 0
Eén betekenis van 0 is dat een attribuut van een object niet bestaat, bijv. 0.00 cm lang, met andere woorden iets
zonder lengte. Een tweede betekenis van 0 is om het zien als een willekeurige grootheid van een attribuut
(arbitrair genoemd). Een temperatuur van 0 op de schaal van Celsius geeft namelijk smeltpunt van ijs aan, maar
vertegenwoordigt niet de ‘afwezigheid’ van iets aan (d.w.z. het vertegenwoordigt niet de afwezigheid van
temperatuur aan). Als een kwestie van evaluatie is het belangrijk om te weten wat nul betekent. Betekent het dat
een score van 0 op een test iemand geen van de eigenschappen bezit die werden gemeten of betekent het dat de
persoon misschien geen meetbare hoeveelheid had van dat attribuut. Wanneer een kind een score van 0 op een
spellingtoets heeft, betekent het niet gelijk dat het kind niet kan spellen, maar de meetbare hoeveelheid van het
attribuut was er niet.
Meeteenheden
Willekeur is een belangrijk concept bij het begrijpen van meeteenheden, er zijn drie manieren waarop een
meeteenheid willekeurig kan zijn. Ten eerste kan de eenheidsgrootte willekeurig zijn. De hoeveelheid gewicht
die wordt weergegeven door een ‘pond’ is een willekeurig getal. Hoewel er nu wel consensus bestaat over de
exacte hoeveelheid gewicht die wordt weergegeven door een pond, kunnen we ons afvragen waarom een pond
dat specifieke getal zou moeten weerspiegelen. De keuze was waarschijnlijk vrij willekeurig. Een tweede vorm
van willekeur is dat sommige meeteenheden niet gebonden zijn één type object, een pond kan worden gebruikt
om het gewicht van veel verschillende objecten te meten. Een derde vorm van willekeur is dat sommige
meeteenheden, wanneer ze een fysieke vorm aannemen kunnen worden gebruikt on verschillende kenmerken
van objecten te meten. In tegenstelling tot veel fysieke metingen zijn de meeste psychologische meeteenheden
(zoals IQ) over het algemeen alleen willekeurig in de eerste betekenis van de hierboven genoemde term
willekeurig, je kan IQ namelijk niet als meeteenheid gebruiken om andere psychologische attributen te meten
dan intelligentie.
Additviteit en Tellen
De noodzaak om te tellen staat centraal bij alle pogingen tot meten. Of we nu een kenmerk van de fysieke wereld
of van de psychologische wereld proberen te meten, elke meting omvat tellen. Wanneer je een test gebuikt om
iemands gevoel van eigenwaarde te meten, tel je bijvoorbeeld het aantal testuitspraken dat een respondent als
‘waar’ bestempelt, en het aantal ‘waar’-scores kan een indicatie geven van het niveau van het gevoel van
eigenwaarde.
Additiviteit
Additiviteit vereist dat de eenheidsgrootte constant blijft; een toename van een eenheid op een bepaald
punt in het meetproces moet hetzelfde zijn als een toename van een eenheid op een ander punt. Oftewel,
alle eenheden die worden geteld zijn identiek. Helaas geldt vaak niet bij psychologische metingen. Denk aan
voorbeeld van de geschiedenistoets, als de eerste vraag makkelijk is en de tweede vraag vergt meer kennis, en je
telt simpelweg het aantal juiste antwoorden op, dan zouden vragen bijvoorbeeld maar 2 ‘eenheden’ kennis
hebben, terwijl diegene misschien in feite 4 ‘eenheden’ kennis had. Deze discrepantie treedt op omdat de
meeteenheden niet constant zijn in termen van het onderliggende attribuut dat ze moeten weerspiegelen het
optellen van de juiste antwoorden is dus geen goede maatstaaf voor de hoeveelheid kennis.
Vier meetschalen
Zoals eerder besproken omvat meten het toekennen van getallen aan waarnemingen op een zodanige manier dat
de getallen de werkelijke verschillen weerspiegelen die bestaan tussen niveaus van een psychologisch attribuut.
Schalen is de specifieke manier waarop getallen worden gekoppeld aan gedragswaarnemingen om een maatstaaf
te creëren.
Nominale schalen
Het meest fundamentele meetniveau is de nominale meetschaal. Op deze schaal worden getallen die de
eigenschap van identiteit hebben, gebruikt om waarnemingen te labelen waarin gedragingen zijn gesorteerd in
categorieën op basis van een psychologisch attribuut. Onthoud het is belangrijk dat de groepen elkaar uitsluiten
en uitputten. Bij geslacht kan je man als 1 aangeven en vrouw als 0 bijvoorbeeld.
, Een belangrijk punt is dat wanneer cijfers worden gebruikt om mensen te identificeren, je duidelijk moet zijn
over je bedoeling. Gebruik je de cijfers om een groepslidmaatschap te identificeren (nominaal meetniveau, op
basis van geboorte jaar indelen) of als labels die dienen als namen voor individuen (bijv. Burgerservicenummer).
Ordinale schalen
Ordinale schalen geven rangen aan waarin mensen worden gerangschikt volgens de hoeveelheid van een
attribuut dat ze bezitten. Bijvoorbeeld atletisch vermogen. Maar er wordt geen poging gedaan om te bepalen
hoeveel van dat attribuut daadwerkelijk door elke persoon wordt bezeten. Het geeft simpelweg aan dat de ene
persoon meer of minder van het attribuut heeft dan de andere persoon.
Interval schalen
De eigenschap van kwantiteit kenmerkt twee meetschalen: intervalschalen en ratioschalen. Deze schalen zijn
gebaseerd op getallen die kwantitatieve verschillen tussen mensen vertegenwoordigen in termen van het
attribuut dat wordt gemeten. Het verschil tussen deze twee berust op de betekenis van nul. Intervalschalen
hebben een willekeurige nul, zoals eerder besproken temperatuur uitgedrukt in Celsius is een voorbeeld van een
attribuut gemeten op een intervalschaal. Een temperatuur van 0 graden is willekeurig omdat het niet de
afwezigheid van een attribuut vertegenwoordigt (afwezigheid van temperatuur).
Bij intervalschalen is de grootte van de meeteenheid constant en additief, maar de schaal staat geen
multiplicatieve interpretaties toe. Je kunt 2 graden bij 20 graden optellen en 22 graden krijgen, of je kunt 2
graden bij 10 graden optellen en 12 graden krijgen. In elk geval vertegenwoordigt een verandering van 2 graden
op de thermometer dezelfde verandering in de hoeveelheid warmte. Het is echter niet gepast om 20 graden als 2x
zo warm dan 10 graden te interpreteren.
Veel psychologische test worden gebruikt en geïnterpreteerd alsof ze gebaseerd zijn op intervalmeetschalen.
Ratio schalen
Ratioschalen hebben geen willekeurig maar absoluut nul punt. Maten van fysieke afstand zijn ratio schalen. Als
je bijvoorbeeld de afstand tussen twee objecten wilt meten en je vindt dat de afstand 0 is, geeft in dit geval de nul
een ‘afwezigheid’ van het kenmerk dat wordt gemeten. Ratioschalen staan multiplicatieve interpretaties toe. Het
is bijvoorbeeld passend om een afstand van 80 meter te interpreteren als ‘twee keer zo ver’ als een afstand van
40 meter. Voorbeeld in de psychologie kan zijn dat een psycholoog aangeeft dat persoon A twee keer zo
gestoord is dan persoon B. Echter zijn volgens de meeste testexperts geen psychologische tests die gegevens op
rationiveau leveren. Dit kan verwarring opleveren als je denkt aan reactietijden (wat gebruikelijk is bij
psychologische tests), want metingen zoals tijd in milliseconden zijn metingen op ratio niveau. Maar onthoudt
dat ratio schalen een absoluut 0-punt hebben. Nadenken op zo’n test zal aantonen dat het voor een persoon
onmogelijk is om ergens op te reageren in 0 seconden. Het meetapparaat heeft een absoluut 0-punt, maar de
reactietijd van een mens kan nooit 0 zijn. Kortom, testgebruikers moeten onderscheid maken tussen de nul die
hoort bij een meetinstrument en de nul die hoort bij kenmerken van het psychologisch attribuut dat we denken te
meten. Meetinstrumenten kunnen een absoluut nulpunt hebben, maar dit betekent niet dat een psychologisch
attribuut een absoluut nulpunt heeft.
Hoorcollege 1
“Solid understanding of testing”
➢ Test afnemen (hbo-niveau)
➢ Test begrijpen (wo-niveau) nodig voor
o Interpreteren van testscores (ook in SPSS-opdracht)
o Correct gebruik van testinformatie
Construct = latente variabele = hypothetische construct = niet direct waarneembaar
Theorie nodig om hypothetische construct en observeerbaar gedrag te linken. Empirisch onderzoek nodig om de
validiteit en betrouwbaarheid te bepalen. In deze cursus focussen we op betrouwbaarheid.