HOOFDSTUK 4 HET METEN VAN PERSOONLIJKHEID.
Welke methoden van onderzoek zijn er om de persoonlijkheid van mensen in kaart te brengen.
Allereerst zal echter worden ingegaan op de kwaliteitseisen waaraan deze methoden dienen aan te
voldoen. Alleen als een methode van voldoende kwaliteit is, kan immers een goed beeld van
iemands persoonlijkheid ontstaan. Na de beschrijving van de kwaliteitseisen volgt een beschrijving
van enkele bekende methoden en specifieke tests die gebruikt worden om persoonlijkheid te meten.
Daarna wordt kort ingegaan op diverse praktische toepassingen van persoonlijkheidsinstrumenten
en op enkele bekende problemen die zich bij het praktisch gebruik van deze instrumenten kunnen
voordoen.
Kwaliteit van persoonlijkheidsmetingen.
De meest belangrijke psychometrische criteria (dat zijn criteria met betrekking tot de test-technische
eigenschappen van een test, die statistisch kunnen worden onderzocht) zullen hierna worden
besproken. Het gaat dan meer specifiek om de betrouwbaarheid, de validiteit en de normering.
Betrouwbaarheid.
Omdat persoonlijkheid in principe niet snel verandert, zou dit dan ongeveer dezelfde scores moeten
opleveren. Deze test-her-test-betrouwbaarheid (betrouwbaarheid die is gebaseerd op herhaalde
afnames) wordt doorgaans bepaald door de correlaties tussen de verschillende metingen te
berekenen. Als de correlatie tussen twee metingen perfect is (r=1), betekent dit dat de test perfect
betrouwbaar is. Meestal zal dit echter niet het geval zijn.
Het gebruiken van herhaalde metingen is een klassieke manier om de betrouwbaarheid van een
psychologische test te bepalen (zie bijvoorbeeld Drenth & Sijtsma, 2006; Nunnally, 1978). Dit heeft
echter vooral nut als de psychologische eigenschappen die worden gemeten ook stabiel zijn. Emoties
bijvoorbeeld, kunnen snel veranderen. Als je meerdere keren bij iemand diens emoties in kaart zou
brengen, zou dit waarschijnlijk steeds andere scores opleveren. De ene keer is iemand verdrietig, de
andere keer blij of boos.
Een andere en veel gebruikte manier om de betrouwbaarheid van tests te bepalen is te kijken naar
de relaties tussen de items (vragen) binnen de test. Je kunt de items dan eigenlijk zien als twintig
herhaalde metingen van dezelfde eigenschap die allemaal tegelijk bij iemand worden afgenomen. De
correlaties tussen de twintig items geven dan een indicatie van de betrouwbaarheid van de test.
Deze correlaties worden samengevat in 1 getal, een zogeheten schatting van de betrouwbaarheid.
De meeste gebruikte schatting van de betrouwbaarheid van een psychologische test is de zogeheten
Cronbach’s alfa coëfficiënt. Dit is een getal dat, net als een correlatie, maximaal gelijk is aan 1. In dat
geval is er sprake van perfecte betrouwbaarheid. In de praktijk zal Cronbach’s alfa echter lager zijn.
Omdat bij deze methode voor het schatten van de betrouwbaarheid maar 1 meting nodig is en de
meeste psychologische eigenschappen met meerdere items worden gemeten, is deze methode voor
het schatten van de betrouwbaarheid van tests voor het meten van minder stabiele eigenschappen.
Cronbach’s alfa is een zogeheten ondergrens voor de betrouwbaarheid (Drenth & Sijtsma, 2006). Dit
betekent dat de betrouwbaarheid van een test minimaal gelijk is aan alfa, maar ook wel eens hoger
zou kunnen zijn. Er zijn veel verschillende coëfficiënten zoals Cronbach’s alfa ontwikkeld om de
betrouwbaarheid van een test op basis van de relaties tussen items mee uit te drukken. Cronbach’s
alfa is daarvan weliswaar de meest gebruikte in de literatuur (het is bijvoorbeeld de default-optie in
een statistisch programma als SPSS, dat veel door wetenschappers in de psychologie wordt
gebruikt), maar zeker niet de beste. De greatest lower bound (Jackson & Agunwamda, 1977) is de
,ondergrens die het dichtst tegen de echte betrouwbaarheid aanzit, maar is vrij moeilijk te berekenen
met standaard statistische programma’s. Een goed alternatief voor Cronbach’s alfa is de lambda-2
coëfficiënt van Guttman (1945). Deze is minimaal gelijk aan alfa, maar meestal iets hoger en
eenvoudig te berekenen in een programma zoals SPSS (Sijtsma, 2009).
De Commissie Testaangelegenheden Nederland (COTAN) heeft richtlijnen opgesteld wat betreft de
gewenste hoogte van de betrouwbaarheid van een test (Evers et al., 2010). Daarbij wordt
onderscheid gemaakt naar het gebruiksdoel van de test. Als een test wordt gebruikt om belangrijke
beslissingen op individueel niveau te baseren wordt de betrouwbaarheid pas als goed beoordeeld
wanneer die .90 of hoger is.
Hierboven een overzicht van de gevraagde betrouwbaarheid voor verschillende gebruiksdoelen.
Hierbij moet nog worden opgemerkt dat als een test uit meerdere onderdelen bestaat (bijvoorbeeld
een test voor de Big-Five) waarmee vijf eigenschappen worden gemeten, er voor elk van deze
onderdelen moet worden bepaald wat de betrouwbaarheid is. Wanneer die onderdelen ook weer
kunnen worden gecombineerd tot 1 totaalscore moet ook van die totaalscore de betrouwbaarheid
worden bepaald. Met persoonlijkheidstests worden vaak enkele vrij onafhankelijke
persoonlijkheidseigenschappen gemeten, waardoor het voor deze tests in de regel niet zinvol is om
de scores op de verschillende eigenschappen met elkaar te combineren tot 1 totaalscore.
Behalve met behulp van vragenlijsten kunnen persoonlijkheidseigenschappen ook worden bepaald
door bijvoorbeeld observatoren een beoordeling te laten maken. In dat geval is weer een ander type
betrouwbaarheid relevant: de zogeheten inter-beoordelaarsbetrouwbaarheid. Bij deze vorm van
betrouwbaarheid wordt dezelfde persoon beoordeeld door twee of meer personen en wordt
onderzocht in welke mate deze beoordelaars dezelfde scores geven. Dit is vergelijkbaar met een
herhaalde meting, waarbij in dit geval de scores door twee of meer personen worden gegeven. Er
bestaan nog meer vormen van betrouwbaarheid, maar die worden in de psychologische praktijk
minder vaak toegepast en zullen hier niet verder worden besproken.
Validiteit.
Validiteit heeft betrekking op of de test doet wat die zou moeten doen. Alle psychologische tests zijn
bedoeld om een bepaald begrip te meten (bijv. persoonlijkheid) en/of bepaald gedrag te voorspellen
(bijv. schoolsucces). Er zijn twee vormen van validiteit; doet de test wat hij moet doen;
begripsvaliditeit en voorspelt de test wat hij moet voorspellen; criteriumvaliditeit.
, Begripsvaliditeit.
Bij de bepaling van de begripsvaliditeit van een test gaat het, zoals de naam al aangeeft,
voornamelijk om de vraag in welke mate de test in staat is om een bepaald begrip te meten. Het
antwoord op die vraag wordt verkregen door middel van empirisch onderzoek. Er zijn verschillende
aspecten van een psychologische test die in het kader van de bepaling van de begripsvaliditeit
kunnen worden onderzocht. De drie belangrijkste manieren zijn respectievelijk het onderzoeken van
(1) verschillen tussen groepen, (2) de verbanden met andere tests en (3) de interne structuur van de
test.
Als het gaat om het onderzoeken van verschillen tussen groepen, gaat het vooral om de vraag in
hoeverre een test in staat is om groepen personen waarvan je mag verwachten dat ze verschillend
zullen scoren op de test van elkaar te onderscheiden.
Een andere manier om de begripsvaliditeit van een test te onderzoeken is door de verbanden van
deze test met andere tests te onderzoeken. Dit kan je inzicht geven in wat de test eigenlijk meet.
Relaties tussen een test en andere tests die hetzelfde begrip beogen te meten heet
soortgenootvaliditeit (convergerende validiteit).
Het bepalen van de soortgenootvaliditeit gebeurt doorgaans door correlaties tussen een test en
andere tests die ongeveer hetzelfde begrip zouden moeten meten, uit te rekenen. In het algemeen
geldt dat hoe hoger de correlaties zijn, hoe beter het met de soortgenootvaliditeit en dus met de
begripsvaliditeit van de test is gesteld. Een probleem is wel dat er geen grenswaarden kunnen
worden gegeven. De ene onderzoeker zal tevreden zijn met correlaties >.60, terwijl de andere pas
tevreden is met >.80. Er is daarom een vrij grote mate van subjectiviteit bij het interpreteren van
dergelijke resultaten.
In de praktijk blijkt dat het soms moeilijk is om soortgenoten te vinden die exact hetzelfde begrip
meten. Het is helemaal lastig als een test wordt ontwikkeld die de eerste is in zijn soort. Men kan
inzicht krijgen door de relaties tussen de test en tests die andere begrippen meten te onderzoeken.
Dit wordt ook wel divergerende validiteit genoemd. Als de test zwak samenhangt met tests die hele
andere dingen meten, geeft dat in elk geval aan dat de test niet meet wat met die andere tests
wordt gemeten.
Een derde manier om de begripsvaliditeit van een test te bepalen is door de interne structuur van
een test te onderzoeken. Vooral bij tests die uit meerdere onderdelen bestaan, kan dit zinvolle
informatie verschaffen. De interne structuur van een test wordt vaak onderzocht door (1) de
correlaties te berekenen tussen de verschillende onderdelen van de test en (2) door middel van
factoranalyse. Het analyseren van de interne structuur van een test door middel van correlaties lijkt
op het onderzoeken van de soortgenootvaliditeit en/of divergerende validiteit, maar dan uitgevoerd
binnen een test. Hoewel je idealiter niet al te sterke verbanden (correlaties) vindt tussen onderdelen
van een persoonlijkheidsinstrument (bijv. tussen de vijf schalen van een Big-Five-vragenlijst)
betekenen hoge correlaties niet automatisch dat de begripsvaliditeit niet goed is. Het kan best zijn
dat uit de andere manieren voor het bepalen van de begripsvaliditeit bewijs komt dat de
begripsvaliditeit wel goed is (bijv. door verwachte groepsverschillen te vinden). Wanneer
factoranalyse wordt gebruikt om de interne structuur van een test te onderzoeken, wordt gekeken
of de test inderdaad net zoveel factoren bevat als je zou verwachten. Bijvoorbeeld of in een Big Five-
vragenlijst inderdaad vijf factoren zijn terug te vinden.