PSY 3109 PSYCHODIAGNOSTIEK
1. BETROUWBAARHEID
Betrouwbaarheid = consistentie van metingen als de testprocedure herhaald wordt bij een persoon
of steekproef
Betrouwbaarheid is belangrijk omdat er bij het meten van een attribuut van een biologisch, fysisch of
psychologisch kenmerk of verschijnsel meetfouten gemaakt worden
- Weinig meetfout betrouwbaar
- Te veel meetfout onbetrouwbaar
betrouwbaarheid is de herhaalbaarheid van een meetresultaat
Er is altijd variatie en er kunnen ook individuele verschillen zijn in de variabiliteit / consistentie van
gedragingen. Werkelijke verandering is ook nog mogelijk.
Betrouwbaarheid = ratio van de variantie van de geobserveerde score en de variantie van de ware
score
- r = σ2T / σ2X
Betrouwbaarheid kan geschat worden uit de correlatie tussen geobserveerde en ware score. Ware
scores moeten ook geschat worden maar door sampling error kunnen verschillende samples
verschillende schattingen van de ware score geven…
Betrouwbaarheid schatten door paralleltesten te creeeren door herhaaldelijk random samples te
nemen van items uit hetzelfde domein
Bronnen voor error:
- omgevingsfactoren bv. lawaai
- individuele verschillen
- testitems niet representatief voor het domein
De spreiding rond het gemiddelde kan als maat voor betrouwbaarheid genomen worden
standaardmeetfout (standaarddeviatie van de meetfouten / standaardafwijking van een groot aantal
herhaalde metingen bij een persoon). Theoretisch kunnen we zo voor elke persoon de
betrouwbaarheid bepalen. Als de standaardmeetfout klein is, dan is dat goed.
3 soorten betrouwbaarheidscoefficienten:
1. Test-hertest: ‘stability coefficients’ consistentie van de testresultaten bekijken als de test
op meerdere tijdstippen wordt toegediend (time sampling)
o Alleen waardevol als we dingen meten die hetzelfde blijven over tijd bv. IQ-test
o Betrouwbaarheid = correlatie tussen de 2 scores van de 2 tijdstippen
o Opletten voor carryover effect (bv. Practice effects)
Kan zorgen voor overschatting van de betrouwbaarheid!
2. Parallelle vormen: ‘alternate forms coefficients’ test wordt geevalueerd door
verschillende vormen van de test vergelijken van 2 gelijkaardige vormen die wel andere
items hebben (item sampling)
o Betrouwbaarheid wordt geschat door Pearson r
o Vaak bestaat er maar 1 testvorm en moet de betrouwbaarheid geschat worden voor
deze groep items
Split-half methode: test wordt opgedeeld in 2 helften die apart gescored
worden en worden met elkaar vergeleken
Spearman-Brown formule: r = 2r / 1+r
3. Individuele items of sub-testen: ‘internal consistency coefficients’ (α) onderzoeken hoe
mensen scoren op gelijke subsets van items uit dezelfde vorm van meting
1
,PSY 3109 PSYCHODIAGNOSTIEK
o Evaluatie van de mate waarin verschillende items van een test dezelfde ability of
trait meten
Dit zijn eigenlijk allemaal speciale gevallen van de generaliseerbaarheidscoefficient.
De score van een persoon op een test bestaat uit een algemene ware score en een algemene
foutenscore die is opgebouwd uit de verschillende soorten meetfouten.
de stabiliteit van een score (generalisatie over tijdstippen), de interne consistentie (generalisatie
over items) en de overeenstemming (generalisatie over beoordelaars) representeren samen de
algemene onbetrouwbaarheid
De generaliseerbaarheidstheorie dient als een synthese van alle betrouwbaarheidscoefficienten uit
de klassieke testtheorie.
- Neemt aan dat elke persoon een ware score zou verkrijgen als er geen meetfouten zouden
zijn, maar er zijn altijd meetfouten dus: X = T + E
o X = geobserveerde score
o T = ware score
o E = error
- Assumptie: meetfouten zijn random ware score van een persoon blijft hetzelfde
- Domain sampling model: houdt rekening met de problemen die voortkomen uit het gebruik
van een beperkt aantal items om grotere constructen te representeren
o Als de sample groter is wordt het domein nauwkeuriger gerepresenteerd hoe
meer items, hoe hoger de betrouwbaarheid
Moderne testtheorie leidt tot item-responsfuncties die dienen als modellen die de toenemende kans
op correcte antwoorden op een item afbeelden bij steeds hogere levels van bekwaamheid (ability) of
een hoger level op een karaktertrek (trait). Dit levert een ander type betrouwbaarheid op omdat er
niet meer van uitgegaan wordt dat de meetfout gelijk is op elk level van de ability of trait
conditionele of voorwaardelijke meetprecisie, want de precisie of meetfout kan per level op de trait
of ability bepaald worden.
Testinformatiefunctie: som van alle iteminformatiefuncties die afgeleid zijn van de
itemresponsfunctie (IRF). De omvang standaardmeetfout voor een bepaald level op de trek of
vaardigheid hangt samen met hoe goed de items op dat level discrimineren.
= Item response theory: houdt rekening met de moeilijkheid van items om iemands ability level vast
te stellen zorgt voor een meer betrouwbare schatting van ability d.m.v. een kortere test met
minder items
Veel testen zijn volgens de klassieke testtheorie ontworpen.
De statistische kengetallen – standaardmeetfout, betrouwbaarheidscoefficienten,
generaliseerbaarheidscoefficienten en testinformatiefuncties – geven info over de betrouwbaarheid
van meetinstrumenten. Hiermee kan bepaald worden welke van een aantal vergelijkbare testen er
het beste uitkomt.
Hoe hoog de betrouwbaarheid van een test, instrument of procedure moet zijn, moet de
diagnosticus zelf uitmaken, hij moet beslissen welk risico hij wil nemen.
De hoogte van de betrouwbaarheid is niet bij alle typen onderzoek even belangrijk. Bij experimenteel
gebruik van een meetinstrument is een lagere betrouwbaarheid niet zo erg dan bij de selectie van
personen voor een baan of bij de plaatsing van leerlingen op scholen.
Nunnally & Bernstein: voor belangrijke beslissingen over personen moet er een betrouwbaarheid van
r > .90 zijn voor interne consistentie en stabiliteitscoefficienten.
2
,PSY 3109 PSYCHODIAGNOSTIEK
vuistregels (COTAN):
Belangrijke beslissingen op individueel niveau, bv. personeelsselectie: beslissingen die in
beginsel of op korte termijn onomkeerbaar zijn en die voor een belangrijk deel buiten de
geteste persoon om genomen worden
o r <.80 onvoldoende
o .80 <r <.90 voldoende
o r >.90 goed
minder belangrijke beslissingen, bv. voortgangscontrole:
o r <.70 onvoldoende
o .70 <r <.80 voldoende
o r >.80 goed
testen die experimenteel gebruikt worden, dus in onderzoek op groepsniveau:
o r <.60 onvoldoende
o .60 <r <.70 voldoende
o r >.70 goed
Deze vuistregels zijn nuttig voor de diagnosticus en kunnen helpen kiezen tussen soortgelijke testen.
De klassieke testtheorie en de generaliseerbaarheidstheorie maken het mogelijk om schattingen te
maken van fouten in waarnemingen met behulp van een model, waarbij de geobserveerde score een
som is van ware en ‘error’-componenten.
De moderne testtheorie formuleert lineaire en niet-lineaire modellen of functies over het antwoord
van personen op een of meer items die getoetst kunnen worden aan empirische data.
Overzicht van de Klassieke Test Theorie
Het basisprincipe van de klassieke theorie is dat een geobserveerde score (X) die een persoon
haalt op een test opgebouwd is uit de echte score (T) en de error component (E)
dus : X = T + E
De echte score is de verwachte waarde van de geobserveerde scores van een oneindig aantal van
herhalingen van dezelfde test. Het kan gezien worden als de score die behaald zou worden als de
test alleen het onderwerp van interesse zou meten, zonder error.
Belangrijk is dus om te ontdekken in welke mate de test score de echte kennis van het domein
reflecteert.
Dit doen we door middel van de betrouwbaarheidscoëfficiënt, deze is de geobserveerde score variance
ten opzichte van de echte score variance.
Op individueel level van testscore gebruiken we de SEM.
Het grote voordeel van de CTT is dat deze gebaseerd is op relatief zwakke assumpties die
makkelijk tegemoet te komen zijn met echte data en bescheiden sample sizes. Deze modellen zijn
makkelijk te gebruiken en vereisen weinig wiskundige kennis van de gebruiker.
Nadelen van de CTT
1. Alle CTT gebaseerde statistieken zijn sample afhankelijk. Een P-waarde van 0.60 van een
test item geeft niet hetzelfde moeilijkheidslevel weer als het gebaseerd is op een zwakke
groep t.o.v. als het op een sterke groep is gebaseerd.
Dus CTT is bruikbaar in situaties waar personen in groepen vergelijkbaar zijn in capaciteit.
2. Daarnaast geeft de CTT geen makkelijk mechanisme om het moeilijkheidslevel van een test
vast te stellen, wat belangrijk is bij mastery testen.
3. Als derde neemt de CTT aan dat meetfouten identiek zijn voor alle scores. In de praktijk
3
,PSY 3109 PSYCHODIAGNOSTIEK
weten we dat de scores die in de staart van de verdeling liggen niet zo accuraat worden
geschat als die in het midden van de verdeling. Dit is omdat er minder informatie
beschikbaar is over die scores (er zijn er veel minder van).
Overzicht van de Item Response Theorie
De item response theorie bestaat uit een aantal non-lineaire modellen die een schatting van de
kans op een correct antwoord op een test item geven als een functie van de karakteristieken van
het item (vb. moeilijkheid) en de capaciteiten van de test nemers op de trait die de test meet.
Alle IRT modellen proberen geobserveerde (echte) item prestatie te verklaren als een functie van
een onderliggende capaciteit (niet observeerbaar) of latent trait.
Een voordeel is dus, dat als de assumpties tegemoet gekomen worden door de dataset, dan zijn
de schattingen van een item parameter onafhankelijk van welke groep gekozen is om de test te
maken.
Ook is de geschatte capaciteit van een test maker niet afhankelijk van de sample van items die
gekozen is uit alle mogelijke items.
Daarnaast geven IRT modellen een schatting van de meetfout op ieder mogelijk niveau van de
capaciteit-schaal.
Voordelen ten opzichte van de CTT
De IRT is in staat om een schatting en vergelijking te maken van de capaciteiten van een student
ongeacht welke vorm van een test gemaakt is.
Er zijn wel assumpties waaraan voldaan moet zijn:
Assumptie van ondimensionaliteit = IRT modellen gaan er vanuit dat een single
onderliggende capaciteit garant staat voor de prestatie op de test. Dus bij testen die
verschillende domeinen meten, die kunnen verschillen tussen testen, kan de capaciteit en
moeilijkheidsgraad beter niet met IRT geschat worden.
Assumptie van locale onafhankelijkheid = als de voorwaardelijke kans op een correcte
respons op een item niet verwant is aan de voorwaardelijke kans op een correcte respons
op een ander item.
Test zijn non-speeded
4
, PSY 3109 PSYCHODIAGNOSTIEK
2. VALIDITEIT
Validiteit = een test moet in het algemeen betekenis hebben maar moet ook valide zijn voor de
situatie waarin ze wordt toegepast bewijs door het aantonen van associatie tussen de test en
andere variabelen
= overeenkomst tussen een testscore of meting en de kwaliteit die het zou moeten meten
’Meet de test wat het moet meten?’
Validiteit is het bewijs voor afleidingen over een testscore
- 3 types: construct-related, criterion-related, content-related
Face validity = op het eerste zicht lijkt een test valide te zijn
- Als de items redelijk gerelateerd lijken aan het doel van de test
- Is niet echt validiteit omdat het geen bewijs geeft om conclusies te trekken uit de testscores
De verschillende ‘vormen’ van validiteit moeten beschouwd worden als verschillende manieren om
info over de validiteit te verzamelen validiteit is een ondeelbaar begrip (‘unitary concept’)
Het is belangrijk om die info te verzamelen die past bij het doel van de test, bv. beschrijving, predictie
of classificatie.
Valideren = de activiteit van het op wetenschappelijke wijze argumenteren om een bepaalde
interpretatie van een test te ondersteunen, waarbij niet alle typen bewijs even belangrijk zijn voor
het doel
het gaat niet om de eigenschap van een test, maar om de eigenschap van de interpretatie
van testscores
Bossboom et al.: validiteit heeft betrekking op de vraag of het attribuut dat men meet in staat is
variatie in de uitkomsten van de meting te veroorzaken.
MESSICK: ‘Unified validity’ integreert overwegingen over inhoud, criteria, en gevolgen in een
construct framework voor het empirisch testen van rationele hypothesen over score betekenis en
theoretisch relevante relaties, incl. Die van toegepaste en wetenschappelijke aard. Construct
validiteit omvat 6 aspecten: inhoud, substantief, structureel, veralgemeenbaarheid, externe en
consequentiele aspecten. Deze dienen als algemene validiteitscriteria of standaard voor alle
educatieve en psychologische metingen.
Validiteit = overall evaluatieve beoordeling van de mate waarin empirisch bewijs en theoretische
redenen steun geven aan het nut en de doeltreffendheid van interpretaties en acties op basis van
testscores of andere vormen van vaststelling.
validiteit is een eigenschap van de betekenis van testscores
de betekenis of interpretatie van de score moet valide zijn en ook de gevolgen voor actie die deze
betekenis met zich mee brengt
‘Scores’ verwijzen niet alleen naar gedragsmatige consistenties en attributen van personen maar ook
naar functionele consistenties en attributen van groepen, situaties of omgevingen en objecten of
instellingen de principes van validiteit gelden voor alle vaststellingen, incl. die van performance
(bv. voor student portfolio’s)
afleidingen over kwaliteit en constructen moeten voldoen aan de standaarden van validiteit
Er worden 4 bronnen van bewijs onderscheiden op basis van
1. Testinhoud inhoudsvaliditeit: letten op het domein van kennis, vaardigheid of
gedragswijze, op de onderwerpen en op het format van de vragen/items; de test moet deze
dingen omvatten
2. Analyse van antwoordprocessen constructvaliditeit: berust op theoretische en empirische
analyses van antwoord- of responsprocessen; nagaan hoe de deelnemers hebben gehandeld
5