Week 1 - Hoorcollege 1 & Boek Hoofdstuk 1
Leerdoelen:
- Ik heb inzicht in het belang van diagnostische tests.
- Ik weet welke eigenschappen een test definiëren.
- Ik weet hoe ik op een ethische manier tests af kan nemen.
Definitie van een test
Een test is gestandaardiseerde procedure voor het nemen van een steekproef van gedrag,
beschreven in categorieën of scores. Daarnaast zijn er normen en standaarden waardoor
resultaten kunnen worden gebruikt om ander belangrijk gedrag te voorspellen. Een test is
gestandaardiseerd wanneer de afname hetzelfde is, ongeacht de examinator of de setting. Dit
is voornamelijk afhankelijk van de instructies in de handleiding. Doordat de test alleen een
steekproef van gedrag meet, is het van belang dat deze steekproef goed genoeg is om
inferenties te maken over het totale domein van relevant gedrag.
Elke testscore bevat meetfouten. Hiervoor is een formule opgesteld, ofwel de klassieke test
theorie genoemd, ontwikkeld door Charles Edward Spearman:
X (testscore) = T (daadwerkelijke score) ± e (meetfout)
Een testontwikkelaar wil natuurlijk het liefst een zo’n klein mogelijke meetfout. Daarnaast is
het nooit mogelijk om de daadwerkelijke score te achterhalen.
De norm van de test is een samenvatting van resultaten van een grote, representieve groep
deelnemers, zodat scores kunnen worden vergeleken. Deze groep wordt ook wel de
gestandaardiseerde steekproef genoemd. Andere eigenschappen van een gestandaardiseerde
test zijn:
1. Herhaalbaarheid – als het construct gelijk blijft, blijft de score ook gelijk
2. Volledigheid – beperkt aantal items
3. Scores – constructen uitdrukken in getallen
4. Interpretatie scores – norm van de standaardscore (bepaald door de steekproef)
a. (Ruwe) score vergelijken met de afkapwaarde, criteria-verwezen test, zijn de
criteria wel of niet behaald door de deelnemer.
b. (Ruwe) score vergelijken met een normgroep (geeft een gedetailleerder beeld
over de interpretatie van de score), ofwel een norm-verwezen test.
5. Predictie non-test gedrag – test score voorspelt bepaald gedrag (heel belangrijk voor
de validatie)
Doel van een test
Een test is een onderdeel van een onderzoek (assessment). Hierbij wordt de volledige grootte
van een attribuut/meerdere attributen geschat bij een persoon. Een test kan een individuele
test of een groepstest zijn. Er zijn verschillende hoofddoelen bij een test:
1. Intelligentietesten
2. Aanleg testen (bijv. om te testen of iemand succesvol zal zijn in een specifiek beroep)
3. Prestatie testen
4. Creativiteitstesten
5. Persoonlijkheidstesten
6. Interesse-testen (bijvoorbeeld een beroepskeuzetest)
7. Gedragstesten
, 8. Neuropsychologische tests – meten van cognitie bij (mogelijk) hersenletsel – er is
geen direct verband tussen verminderde cognitie en hersenletsel
Gebruik van testen
Er zijn diverse opties waarvoor een test kan worden gebruikt:
1. Probleemanalyse
2. Classificatie – plaatsing (bijvoorbeeld voor een universiteit), screening en certificatie
3. Diagnosestelling en planning behandeling - wetenschappelijk verantwoorde,
betrouwbare en objectieve informatie verzamelen omtrent een diagnostisch beeld
(beslissing). De diagnostiek is het door en door leren kennen van een situatie met als
doel een beslissing te kunnen nemen. Diagnostiek is idealiter herhaalbaar, nadert de
werkelijkheid en heeft interrater-betrouwbaarheid.
a. Psychodiagnostiek is onderzoek op het gebied van psychosociaal functioneren
om een betrouwbare (consistent) en valide (goede meetpunt) beschrijving te
geven van de psychosociale werkelijkheid. Dit zorgt voor mogelijke
verklaringen voor de problemen. Deze verklaringen moeten dan nog worden
getoetst.
4. Evaluatie van behandeling
5. Zelfkennis
6. Kennisvergaring wetenschappelijk onderzoek
Gevaren testgebruik
Er zijn vele externe factoren waardoor een test niet altijd volledig accuraat is. Het is
belangrijk dat de instructeur goed is ingelicht, de test gevoelig is voor afwijkingen bij
deelnemers (bijvoorbeeld een gehoorbeschadiging) en dat deze afwijking wordt gevonden
door de instructeur. Als een gehoorvermindering bijvoorbeeld niet wordt opgemerkt, zal een
IQ-score lager uitvallen dan de realiteit is. Verder kunnen eigenschappen bij de deelnemer ook
van invloed zijn op de score (denk aan faalangst).
Ook zijn er in de diagnostiek probleemstellingen die ervoor zorgen dat een test niet altijd
accuraat is:
- Er moeten vaak een moeilijke en complexe structuur worden gemeten
- Er is beperkte tijd: door lange wachttijden is er een verminderde studieduur. Dit zorgt
voor:
o Confirmation bias – neiging om nieuw bewijs te interpreteren als bevestiging
van bestaande overtuiging/theorie.
o Beschikbaarheidsheuristiek – neiging om te focussen op alleen die
symptomen die verband houden met hoog prevalente aandoeningen (bijv. focus
op ADHD en alleen letten op die symptomen).
- Er is vaak sprake van een confounder (niet-gemeten variabelen die effect hebben op
de test):
o Alle instrumenten bevatten meetfouten.
o Veel psychologische/pedagogische concepten zijn niet perfect gedefinieerd
o Vragen worden verkeerd gelezen/geïnterpreteerd door de deelnemer
o Deelnemer geeft een sociaal wenselijk antwoord/sociaal wenselijke context
o Handleiding wordt niet precies gevolgd door de instructeur
Daarnaast spelen tests een steeds grotere rol in de maatschappij, met als doel mentale
eigenschappen te objectiveren. Hierbij moet rekening worden gehouden met de
betrouwbaarheid en validiteit van een test. Stel jezelf vragen zoals:
, - Meet een test wat deze beoogt te meten?
- Hoe en onder welke omstandigheden moet een test afgenomen worden?
- Is een verkorte versie van een test (even) betrouwbaar?
- Hoe is de referentiegroep bepaald?
Bovendien stijgt de hoeveelheid fraude bij testen, omdat er veel afhangt van de uitslag. Bij het
Lake Wobegon effect, heeft meer dan de 50% van de deelnemers van een test een score
boven het 50e percentiel, terwijl dit 50/50 moet zijn.
Testgebruik in Nederland
In Nederland zijn de NIP (Nederlands Instituut van Psychologen) en de NVO (Nederlandse
Vereniging van Pedagogen en Onderwijskundigen) actief. De NVO houdt zich bezig met de
beroepsethiek en kwaliteitsbewaking. Onder kwaliteitsbewaking vallen de registraties, de
opleidingen en de COTAN. Het doel van de NIP is verantwoordelijke, integere, respectvolle,
deskundige en ethische handelingen na te streven. Hiervoor hebben zij bepaalde criteria:
- Relevantie van een test
- Afname door bevoegden
- Respect voor psychische en lichamelijke integriteit
- Geheimhoudingsplicht
- Informatieplicht naar een cliënt
- Een onafhankelijk en objectief oordeel (rapportage zonder jargon)
De COTAN (Commissie Test Aangelegenheden Nederland) informeert testgebruikers over de
kwaliteit van de instrumenten en geeft testmakers feedback over de kwaliteit van hun
instrumenten. De criteriumpunten van de COTAN zijn:
- Uitgangspunten van de testconstructie (wat is de meetpretentie (wat de test ‘zegt’ te
meten), wie is de doelgroep(en), wat is de functie?)
- Standaardisatie (is de kwaliteit van het testmateriaal en de handleiding goed?)
- Normen (is er een representatieve vergelijkingsgroep?)
- Betrouwbaarheid (is de test consistent/is er herhaalbaarheid van de testscore?)
- Validiteit (meet een test wat deze beoogt te meten?)
Ethiek bij uitgevers
Het publiceren van een test heeft het uiteindelijke doel om veel geld op te halen. Daarom
moeten bepaalde normen worden gehandhaafd:
- Kwaliteit van het testmateriaal, de handleidingen, scoreformulieren en normeringen en
eerlijkheid over deze kwaliteit
- Psychometrische kenmerken moeten up-to-date zijn
- Alleen gekwalificeerde mensen mogen tests kopen en gebruiken
- Verbod van digitaal testgebruik of een test die thuis moet worden afgelegd (snel al niet
valide, denk aan reactietijd van een deelnemer en hun internetsnelheid bij een digitale
test).
, Hoorcollege 3 & Boek Hoofdstuk 3b
Leerdoelen:
- Ik ken de definitie van betrouwbaarheid volgens de klassieke testtheorie en kan deze
adequaat berekenen en interpreteren.
- Ik begrijp de verschillende methoden om betrouwbaarheid te bepalen en weet wanneer
ik deze in moet zetten.
Definitie betrouwbaarheid
Betrouwbaarheid zegt iets over de consistentie van een meetinstrument. Het is vaak niet
altijd precies hetzelfde, dus is het een kwestie van correlatie tussen scores op een test bij
herhaalde afname. De score van betrouwbaarheid wordt genoteerd als een score tussen de 0 en
de 1. Het is de verhouding tussen het daadwerkelijke T en de testscore X (in de formule: X
(testscore) = T (daadwerkelijke score) ± e (meetfout))
Bronnen van meetfouten
In de formule van de klassieke test theorie is de e verantwoordelijk voor de inconsistentie in
de meting, veroorzaakt door (meet)fouten. Er zijn diverse meetfouten:
Niet-systematische (toevallige) meetfouten (eu), dus inconsistente fouten zijn:
o Item selectie: de test is een steekproef, dus het is mogelijk dat de steekproef
(de items van de test) geen goed beeld geeft van het gehele construct.
o Testafname: omstandigheden tijdens de afname van de test (bijv. dialect van
de proefleider, geluidsoverlast, humeur van de proefpersoon)
o Test scoring: niet mogelijk bij multiple-choice vragen, maar denk aan open
vragen (niet elke docent geeft dezelfde hoeveelheid punten voor eenzelfde
vraag).
- Systematische fouten (es): wanneer de test consistent iets anders meet dan de
bedoeling is. Dit zorgt voor problemen omtrent de validiteit (zie hoorcollege 7).
Systematische fouten kunnen niet worden geschat. Deze kunnen enkel worden
opgelost.
Daarnaast is het ook mogelijk dat er een daadwerkelijk verschil is. Denk er bijvoorbeeld aan
dat gedrag situationeel is (je gedraagt je anders op thuis dan op school/werk).
Niet-systematische en systematische fouten in de klassieke test theorie
Karakteristieken van de niet-systematische meetfouten (KTT) zijn:
- Niet-systematische meetfouten zijn random, en kunnen
zowel een positief als negatief effect hebben op de
testscore (X).
- De gemiddelde meetfout bij een grote groep is 0.
- Meetfouten correleren niet met de ware testscore en ook
niet met andere meetfouten.
- De niet-systematische meetfouten zijn bovendien
normaal verdeeld. Dit betekent dat het gemiddelde 0 is,
met afwijkingen hiervan uitgedrukt in standaarddeviaties (σ ).
o 68% van de testscores X heeft meetfout e van max 1 SDe boven of onder T
o 90% van de testscores X heeft meetfout e van max 1,65 SDe boven of onder T
o 95% van de testscores X heeft meetfout e van max 1,96 SDe boven of onder T