Testtheorie en testgebruik
Collegeaantekeningen 2021-2022
College 1. H1, H2 en H3.
Elke methode om een psychologische eigenschappen of vaardigheden in kaart te
brengen is in principe een psychologische test. Dus ook bijvoorbeeld interviews etc.
o Doel: Een uitspraak doen die een voorspelling, classificatie of beschrijving
mogelijk maakt m.b.t. het onderzochte individu of de onderzochte groep.
o Vaak zijn de psychologische eigenschappen moeilijk of niet direct observeerbaar.
Daarom construeren we indicatoren (items) die gedrag oproepen dat iets zegt
over het te meten construct.
o Testscores zijn geen absolute waarheid. Daarom niet belangrijke beslissingen
maken op basis van een testscore. Ook rekening houden met de context en de
persoon. Alleen informatie van goede kwaliteit is zinvol, daarom kritisch zijn.
o Een criterium is bijvoorbeeld een cutoff-score: vanaf 16 uitnodigen voor een
gesprek, bij 15 of lager niet uitnodigen voor een gesprek.
o Normen: scores vergelijken o.b.v. een gemiddelde, spreiding, z-scores of
normaalverdeling.
Catell (1890) deed het eerste systematische onderzoek naar het kwantificeren van
individuele verschillen.
Om te meten is er vaak een test in combinatie met een meetmodel.
Statistische begrippen:
o k = totaal aantal items in een test
o g, h, = indices van items (zo worden bijv. paren van items weergegeven)
o x = score op een test
o xg = score op item g of xh = score op item h
Dichotome scores: x= 0, 1
Polytome scores: x= 0, 1, 2, 3 …, m
o X = ruwe score (totaalscore), ongewogen som
o i = persoon
Xig = score persoon i op item g
Xi = ruwe testscore van persoon i
Omdat we individuele verschillen veronderstellen, is het belangrijk dat er spreiding is in
de totaalscores op een test.
o Weergegeven door de variantie en de standaarddeviatie
o Voor dichotome items:
Variantie: S2 (Xg) = pg(1 – pg) = pgqg
Standaarddeviatie: S(Xg) = pgqg
Proportie 1-scores = pg en proportie 0=scores = 1-pg = qg
o Covariantie voor lineaire samenhang: mate waarin X en Y samen variëren.
Covariantie geeft de richting van het verband aan en niet de sterkte; wordt geen
, rekening gehouden met de invloed van de variantie van X en Y op de covariantie
(het is geen gestandaardiseerde maat)
o Correlatie wordt gebruikt voor de interpretatie van samenhang
o Lineaire combinaties: som van variabelen. Spelen een belangrijke rol bij
betrouwbaarheid
Gemiddelde van een somvariabele
Variantie van een somvariabele: som van de variantie van de te
sommeren variabelen PLUS de som van alle covarianties tussen de te
sommeren variabelen
o Variantie-covariantiematrix: dit bevat de informatie die je nodig hebt om de
variantie van een somscore te berekenen.
Op de diagonaal staan de varianties van de variabelen
Buiten de diagonaal staan de covarianties tussen de variabelen
Elke covariantie wordt dus twee keer meegeteld
Kenmerken van een goede test
o Efficiëntie: De test is alleen maar gericht op het meten van het hypothetisch
construct, zonder andere storende factoren
o Standaardisatie: De testprocedure moet voor alle respondenten hetzelfde zijn:
dezelfde instructie, zelfde tijdslimiet, zelfde condities
o Normering: Beschikbaarheid van normen en de vergelijkbaarheid van testscores.
o Objectiviteit: Het mag niet uitmaken wie de beoordelaar is; openheid en
reproduceerbaarheid van de testprocedure.
Objectiviteit kan op verschillende manieren uitgedrukt worden: door
correlaties tussen scores, door Kendalls tau, Spearmans rho of Cohen’s
(rangscores) Kappa (nominaal)
o Betrouwbaarheid: Mate waarin bij herhaalde meting dezelfde score behaald
wordt.
o Validiteit: De mate waarin de test aan zijn doel beantwoordt. Dus: meet de test
wat het hoort te meten.
Typen tests: indeling naar testgedrag
o Tests of maximum performance: tests voor prestatieniveau
Subtypen: algemene niveautests (IQ, cognitieve capaciteiten; WAIS,
WISC); tests voor geschiktheid (selectie, eindtoets CITO)
Bijvoorbeeld: IQ, tentamens, vaardigheden
Vaak goed/fout
Vaak high-stakes: je wil een bepaald resultaat behalen
o Tests of typical performance: tests voor gedragswijze
Subtypen: observatietests (taak uitvoeren; zoals een assessment center);
zelfbeoordelingsschalen (persoonlijkheid, attitudes, interesses, klinische
lijsten; zoals NEO-PI)
Bijvoorbeeld: persoonlijkheid, motivatie, klinische schalen
Geen goed/fout maar voorkeuren, meningen en gedragstendenties
Vaak low-stakes: je hoeft niet per se een bepaald resultaat te behalen
, Problemen: meten soms wat minder stabiele constructen en wordt soms
gebruikt in een high-stakes context: typical performance wordt dan
maximum performance.
In dat geval doet soms het probleem ‘faking good’ of ‘faking bad’
voor. In selectiesituaties zijn er bijvoorbeeld gewenste
antwoorden.
Typen tests: indeling naar testinstructie/afname
o Snelheidstests (speed tests)
Veel makkelijke items
Krap tijdslimiet
Veel items
o Niveautest (power tests)
Spreiding in moeilijkheid items
Ruime tijd
Minder items
College 2: H4 en H5.
Bij itemanalyse kijken we naar:
o Itemgemiddelden en spreiding
o Relatieve frequentieverdelingen
o Item-test/item-rest correlaties
Kwantificeren van reacties
o Bij dichotome items zijn er twee mogelijke scores: goed wordt gekwantificeerd
naar 1 en fout naar 0.
Voor itemanalyse voor dichotome items gebruiken we de p-waarde en
de a-waarden van het item. De p-waarde is de proportie van personen
die het antwoord goed heeft en de a-waarden zijn de proporties van
mensen die een bepaald incorrect antwoord hebben gekozen.
Wat we graag willen is een goede spreiding: het goede antwoord
zou ideaal gezien een p-waarde tussen de 0.30 en 0.80 hebben,
en de a-waarden zouden verspreid moeten zijn over de incorrecte
alternatieven.
Hiervoor maken we vaak een relatieve frequentieverdeling
waarin de p-waarde en a-waarden overzichtelijk weergegeven
zijn.
o Polytome items zijn vaak ordinale itemscores. ‘Helemaal mee eens’ wordt
bijvoorbeeld gekwantificeerd naar 4, ‘Een beetje mee eens’ naar 3, etc.
Voor de itemanalyse van polytome items gebruiken we de relatieve
frequentieverdeling ook, en gebruiken we gemiddelde en spreiding. Er is
geen goed/fout: dus geen p-waarde en a-waarden.
Proportie van het aantal mensen wat een bepaald antwoord heeft
gekozen
, Items met een hoog gemiddelde hebben een lage moeilijkheid en
items met een laag gemiddelde hebben een hoge moeilijkheid
(ondanks dat er geen goed/fout is)
Als we iets willen zeggen over individuele verschillen, willen we
graag spreiding zien. Goed functionerende items hebben een niet-
extreem gemiddelde en goede spreiding.
o We willen graag weten hoe sterk de samenhang tussen scores op een item en
scores op overige items is. We verwachten samenhang, want items zijn
geconstrueerd om hetzelfde construct in een test te meten. Dit wordt uitgedrukt
als de item-restcorrelatie of item-testcorrelatie en de verwachting is dat deze
positief is.
Bij de item-testcorrelatie kijken we naar correlatie tussen item Xg en
somscore X
Bij de item-restcorrelatie kijken we naar correlatie tussen item Xg en
restscore X-Xg.
Restscore omdat de correlatie met de hele testscore een te
positief beeld geeft van de relatie tussen een item en de overige
items, omdat de perfecte correlatie van het item met het item zelf
de score vertekent.
o Hierdoor is de item-testcorrelatie groter dan de item-
restcorrelatie. Dit effect is sterker bij korte tests.
Bij een lage item-test/item-restcorrelatie is er weinig samenhang
met de scores van overige items, en dit betekent dat het item niet
goed discrimineert tussen personen op het construct wat we
beogen te meten.
Item-restcorrelatie geeft een indicatie over de kwaliteit van de
items. Geen harde grens, maar laag is in ieder geval .30 of lager.
o Item-restcorrelatie en construct
Klinische en persoonlijkheidsschalen hebben vaak hogere item-
restcorrelaties, omdat er homogene constructen gemeten worden
Onderwijskundige en cognitieve toetsen hebben vaak lagere item-
restcorrelaties, omdat er heterogene constructen worden gemeten.
Bij temanalyse is het belangrijk om:
Itemgemiddelden en spreiding te inspecteren
Relatieve frequentieverdeling te inspecteren
Item-test/item-restcorrelaties te inspecteren
Naar de iteminhoud te kijken
Rekening te houden met het construct
Er zijn verschillende factoren van invloed op de standaardisatie van tests tijdens de
testafname:
o Testcondities: bijvoorbeeld ruimte en rust
o Gedrag van proefpersonen: bijvoorbeeld motivatie, fysieke gesteldheid en
emotionele gesteldheid of faalangst