PB1502 Test- en toetstheorie H8, 9 en 10
H8 Validiteit en betekenis (pp. 328-395)........................................................................................................................3
Introductie digitale werkboek (tentamenstof)...........................................................................................................3
Het begrip validiteit.............................................................................................................................................3
Wildgroei aan validiteitstermen...........................................................................................................................3
Specifieke validiteiten.........................................................................................................................................3
Taxonomieën........................................................................................................................................................4
Nogmaals betrouwbaarheid en validiteit.............................................................................................................4
8.1 Het begrip validiteit.............................................................................................................................................5
De test als voorspeller van ander gedrag.......................................................................................................5
De test als operationalisering van een psychologisch begrip.........................................................................5
Predictieve validiteit en begripsvaliditeit.......................................................................................................5
8.2 Enkele andere onderscheidingen in validiteit......................................................................................................6
8.2.1 Vier belangrijke soorten validiteit...............................................................................................................6
1. Predictive validity (voorspellende validiteit).............................................................................................6
2. Concurrent validity (gelijktijdige validiteit)..............................................................................................6
3. Content validity (inhoudsvaliditeit)...........................................................................................................6
4. Construct validity (constructvaliditeit)......................................................................................................6
8.2.2 Andere onderscheidingen in het begrip validiteit.......................................................................................6
1. Synthetische validiteit................................................................................................................................7
2. Congruent validity (soortgenootvaliditeit).................................................................................................7
3. Face validity (indrukvaliditeit)...................................................................................................................7
4. Incremental validity (toegevoegde validiteit)............................................................................................7
8.3 Predictieve validiteit............................................................................................................................................7
8.3.1 Nadere bepalingen van het criteriumbegrip................................................................................................7
8.3.2 Opzet van een test of testbatterij met predictieve validiteit........................................................................8
Fase 1. Operationalisering van het criterium.................................................................................................8
Fase 2. Keuze en constructie van tests...........................................................................................................8
Fase 3. Proefafneming van bestaande of nieuwe tests...................................................................................8
Fase 4. Validatie van de testprocedure...........................................................................................................9
Fase 5. Samenstelling van de predictorbatterij............................................................................................10
Fase 6. Kruisvalidering (cross validation)...................................................................................................10
8.3.3 Differentiatie in het criteriumonderzoek...................................................................................................11
8.3.4 Validiteitsgeneralisatie..............................................................................................................................12
8.3.5 Beperkingen van predictieve validiteit.....................................................................................................12
8.4 Betekenis en begripsvaliditeit (twee met elkaar samenhangende begrippen)...................................................13
8.4.1 Begripsvalidering......................................................................................................................................13
Fase 1. Betekenisanalyse..............................................................................................................................13
Fase 2. Begripsvalidering.............................................................................................................................13
8.4.2 Betekenisanalyse: op zoek naar de betekenis...........................................................................................14
Structuuronderzoek......................................................................................................................................14
Relatieonderzoek..........................................................................................................................................14
8.4.3 Alternatieve verklaringen..........................................................................................................................15
Samenhang met intelligentie........................................................................................................................15
Sociale wenselijkheid als onbedoelde eigenschap.......................................................................................15
Antwoordtendenties (‘response sets’)..........................................................................................................16
8.5 Nogmaals betrouwbaarheid en validiteit...........................................................................................................16
Multitrek-multimethode-benadering............................................................................................................17
H9 De bijdrage van de test in het beslissingsproces (pp. 396-436)..............................................................................18
, Introductie digitale werkboek (tentamenstof).........................................................................................................18
Taxonomie van beslissingen..............................................................................................................................18
Enkelvoudig selectie- c.q. afwijzingsmodel......................................................................................................18
Kengetallen........................................................................................................................................................18
Afkappunten......................................................................................................................................................19
Voorbeeld met afkappunten...............................................................................................................................19
Belang van de toevalskans (prevalentie)...........................................................................................................20
Likelihood ratios................................................................................................................................................20
Klinische vs. statistische predictie.....................................................................................................................20
Aanvullende opmerking.....................................................................................................................................20
9.0 Inleiding hoofdstuk 9.........................................................................................................................................22
9.1 Taxonomie van beslissingen..............................................................................................................................22
Onderscheid tussen individuele en institutionele beslissingen....................................................................22
Onderscheid op basis van de onderlinge relatie van de alternatieven..........................................................23
Onderscheid binnen univariate beslissingen................................................................................................23
Taxonomie van beslissingen........................................................................................................................23
9.2 Enkelvoudige selectie- c.q. afwijzingsmodel....................................................................................................23
9.2.1 Het gebruik van een enkele test................................................................................................................23
Utiliteit van een testprocedure.....................................................................................................................25
Procedure van gewogen samenstelling (compensatorisch).........................................................................25
Procedure van veelvoudige minimumscore c.q. multiple cut-off procedure (conjunctief)..........................26
Combinatie van compensatorische en conjunctieve methode......................................................................26
9.3 Plaatsingsbeslissingen..................................................................................................................................26
9.4 Individuele beslissingen...............................................................................................................................27
9.5 Open vraag...................................................................................................................................................28
9.6 Tot besluit....................................................................................................................................................29
H10 Ethiek van het testen (pp. 437-461)......................................................................................................................30
10.1 Levensbeschouwelijke en menselijke bezwaren.............................................................................................30
De uniciteit van de mens en de onmogelijkheid dit te meten......................................................................30
De rollen van psycholoog en onderzochte...................................................................................................30
10.2 Technische en methodologische bezwaren......................................................................................................31
De psychometrische kwaliteit van tests.......................................................................................................31
Het stereotypen-bestendigend karakter van tests.........................................................................................32
10.3 Misbruik..........................................................................................................................................................32
10.3.1 Schending van vertrouwen.....................................................................................................................32
10.3.2 Misleiding...............................................................................................................................................32
10.3.3 Binnendringen in het privéleven.............................................................................................................33
10.3.4 Discriminatie...........................................................................................................................................33
Strategie van de maximalisering van de doelmatigheid...............................................................................33
Strategie van de maximalisering van gelijke kansen...................................................................................34
10.4 Tot besluit........................................................................................................................................................34
Drenth, P. J. D., & Sijtsma, K. (2006). Testtheorie: Inleiding in de theorie van de psychologische test en zijn
toepassingen (4e ed.). Houten, Nederland: Bohn Stafleu van Loghum.
,H8 Validiteit en betekenis (pp. 328-395)
Introductie digitale werkboek (tentamenstof)
Het begrip validiteit
Validiteit geeft aan of het gerechtvaardigd is om op basis van een testscore een bepaald criterium te voorspellen.
Volgens Standards for Educational and Psychological Testing is validiteit ‘de mate waarin evidentie en theorie de
interpretatie van de testscores ondersteunen bij het gebruik van de test’.
Er wordt op verschillende manieren naar validiteit gekeken: in het boek is de definitie: ‘de mate waarin de test aan zijn
doel beantwoordt’ en is validiteit geen vaststaande eigenschap van een test → ‘de validiteit van een test’, betekent hier:
‘validiteit bij een specifieke toepassing van de test in een bepaalde context en onderzoekspopulatie’.
Validiteit gezien vanuit twee hoofddoelen die tests kunnen hebben:
(1) Voorspellen van een criterium (gebeurtenis of gedrag in de toekomst of het verleden) → predictieve validiteit (zie 8.3).
(2) Een bepaald psychologisch begrip in kaart brengen → begripsvaliditeit (zie 8.4).
Een strikt onderscheid in deze twee doelstellingen (zoals het boek suggereert) is niet vol te houden; predictieve
validiteit kan niet zonder goede operationalisering van het begrip en begripsvaliditeit kan niet zonder informatie over
het voorspellend vermogen van de test.
Wildgroei aan validiteitstermen
Er was lange tijd sprake van wildgroei aan nieuwe termen voor nieuwe soorten validiteit; studies naar validiteit kunnen
niet alle aspecten ervan bestuderen en richten zich vaak op concrete vraagstukken (bv. de mate waarin de test hetzelfde
meet als een gelijksoortige test: concurrente validiteit).
Verschillende terminologie kan het moeilijk maken om eenduidige uitspraken te doen over validiteit, daarom heeft
Standards for Educational and Psychological Testing het over validiteit als eenledig concept: validiteit van test is een
geïntegreerd oordeel op basis van veel stukjes informatie die elk bijdragen aan een antwoord op de vraag naar validiteit.
Toch is het nog steeds belangrijk om de verschillende vormen van validiteit te kennen, twee redenen:
(1) Deze termen worden nog steeds gebruikt.
(2) De Amerikaanse testpsychologie onderscheidt wel verschillende aspecten van validiteit; er wordt dus naar dezelfde
informatie gekeken om iets te zeggen over de validiteit.
Het gebruik van meerdere termen voor validiteit is niet erg, als je maar onthoudt dat je aan de hand van deze begrippen
iets wilt zeggen over de vraag naar validiteit in het algemeen, dus in hoeverre de test aan zijn doel beantwoordt.
Specifieke validiteiten
Diverse validiteiten en hoe die zich verhouden tot de twee hoofdtypen: predictieve validiteit en begripsvaliditeit:
(1) Predictive validity: lijkt op predictieve validiteit, maar gaat alleen over het voorspellen van toekomstige
criteriumscores, terwijl predictieve validiteit ook kan gaan over paradictie en postdictie.
(2) Concurrent validity: wordt bepaald t.o.v. gelijktijdig beschikbare criteriumgegevens.
(3) Content validity: de mate waarin een test de inhoud van een criterium (of mogelijke item) representeert.
(4) Construct validity: lijkt op begripsvaliditeit, maar valt er niet mee samen (zie 8.2.1 en 8.3.5).
Twee soorten die als specifieke varianten van begripsvaliditeit op te vatten zijn:
(1) Synthetische validiteit: gebruikt niet het criterium in z’n geheel, maar kleinere zinvolle elementen ervan.
Wanneer de predictive validity laag is, kan men het criterium opsplitsen in enkele deelcriteria en de correlatie
tussen de testscores en de deelcriteria bepalen.
(2) Congruent validity (soortgenootvaliditeit): criterium is een bestaande test die dezelfde eigenschap meet.
Twee validiteiten die aan begripsvaliditeit verwant zijn:
(1) Face-validity (indruksvaliditeit): op intuïtieve gronden bepalen of de inhoud van een test valide is.
(2) Incremental validity (toegevoegde validiteit): toename in validiteit als gevolg van het toevoegen van een nieuwe
test aan een bestaande testbatterij.
,Taxonomieën
Twee taxonomieën die aangeven hoe verschillende vormen/aspecten van validiteit zich tot elkaar verhouden:
(1) COSMIN-taxonomie: (Consensus-based Standards for the selection of health Measurement Instruments) beschrijft drie
kwaliteitsdomeinen van testen:
◦ Betrouwbaarheid ◦ Validiteit ◦ Reactievermogen
Elk domein bevat één of meer meeteigenschappen die weer verder onder te verdelen zijn.
(2) De Von taxonomie: (zie figuur) gebruikt definities die overlappen met die van het boek.
Belangrijk: er bestaan diverse termen en taxonomieën voor het begrip validiteit, en daarnaast er is ook sprake van een
trend om validiteit juist als een eenledig concept te beschouwen.
Nogmaals betrouwbaarheid en validiteit
Multitrek-multimethode-benadering: het correlatiepatroon dat ontstaat bij de afname van verschillende tests voor
meer dan één eigenschap, wordt geanalyseerd op consistentie. De belangrijkste eis m.b.t. de validiteit is:
Twee tests die dezelfde eigenschap pretenderen te meten, moeten hoger met elkaar correleren dan tests die
pretenderen een andere eigenschap te meten. Er moet sprake zijn van zowel:
1. confirmerende validiteit (metingen van dezelfde eigenschap met verschillende tests moeten hoog correleren).
2. discriminante validiteit (metingen van verschillende eigenschappen moeten laag met elkaar correleren).
De uitkomsten van de multitrek-multimethode-benadering worden gekoppeld aan het onderscheid tussen
betrouwbaarheid en validiteit en daarnaast ook aan het verschil tussen methode- en trekvariantie.
,8.1 Het begrip validiteit
Definitie validiteit: de mate waarin de test aan zijn doel beantwoordt. Hieruit volgt dat validiteit niet gezien kan
worden als een eigenschap van de test zelf; dat hangt af van het doel.
Het gemeenschappelijke kenmerk van de doelen bij testgebruik is dat het niet gaat om het testgedrag zelf, maar om wat
het testgedrag kan zeggen over ander gedrag dat buiten het testgedrag ligt:
◦ Gedragingen die ook representatief zijn voor de door de test gemeten eigenschap, maar niet door de verzameling
items werden opgeroepen.
◦ Gedragingen die juist representatief zijn voor andere eigenschappen of prestaties, die men m.b.v. de testscore zou
willen voorspellen.
Valideringsproces: het proces van verzamelen van evidentie voor rechtvaardiging van de sprong van testgedrag naar
iets anders. Validiteit: de mate waarin die rechtvaardiging is gevonden.
Validiteit wordt dus gekoppeld aan het doel van het testen: als voorspeller van gedrag of als operationalisering van een
psychologisch begrip.
De test als voorspeller van ander gedrag
Voorspelling: het doen van een uitspraak over feiten waarvoor geen directe evidentie is, maar waarover een conclusie
geformuleerd wordt op basis van kennis van gegevens waarvan verondersteld wordt dat ze met die feiten samenhangen.
Die feiten kunnen in de toekomst, het heden of het verleden liggen:
◦ Predictie: toekomst. ◦ Paradictie: heden. ◦ Postdictie: verleden.
Enige relativering over de mogelijkheid van correcte voorspellingen: ook al bestaat er een aantoonbare relatie tussen
begrippen (bv. tussen intelligentie en schoolsucces), wanneer de test niet een zinvolle operationalisering is van intelligentie
– en ook schoolsucces niet goed is geoperationaliseerd, dan heeft de voorspelling weinig kans van slagen. Alleen
wanneer zowel de test als het te voorspellen gedrag aantoonbare uitingen zijn van eigenschappen waartussen een
aantoonbare relatie bestaat, kan de test een adequate voorspelling opleveren.
Een blinde acceptatie van een voorspellende test (predictor) en de relatie daarvan met gedrag buiten de test (criterium)
is niet realistisch.
De test als operationalisering van een psychologisch begrip
Theoretische begrippen: waarmee men een verklaring kan geven van het testgedrag; capaciteiten,
persoonlijkheidstrekken of attitudes die verantwoordelijk zijn voor het testresultaat. Het doel is het meten van die
begrippen.
Enige relativering: bij het onderzoek naar de psychologische betekenis van de testprestatie worden ook de relaties met
operationaliseringen van andere begrippen betrokken (bv. een te voorspellen criterium). Ook al is het onderzoek niet
gericht op de voorspelbaarheid van ander gedrag, toch levert dergelijk onderzoek informatie op over het voorspellend
vermogen van de test.
Als er een theoretisch relatie mag worden verondersteld tussen intelligentie en schoolsucces, kan men daarvan gebruik
maken om van een nieuwe test vast te stellen of deze wel intelligentie meet en niet iets anders.
Predictieve validiteit en begripsvaliditeit
Alle gebruik van psychologische tests valt onder te brengen bij één van deze doelstellingen, en daarom vallen alle
variëteiten binnen validiteit binnen één van deze soorten validiteit:
◦ Predictieve validiteit: in hoeverre maakt de test een juiste voorspelling mogelijk (bv. toelating tot cursus, selectie voor
baan, beroepsadvisering, classificatie in klinische categorieën, differentiële predictie voor functies) .
◦ Begripsvaliditeit: in hoeverre dekt de test het bedoelde psychologische begrip (bv. theoretische analyse van begrippen,
experiment ter toetsing van theorieën, de onderzochte in psychologische termen begrijpen en beschrijven) .
Een al te dwingend onderscheid tussen toepassingen van tests is niet vol te houden: bv. het beschrijven van een
onderzochte dient altijd een buiten de test gelegen doel. Testen als activiteit op zich heeft geen zin.
Sommigen vinden het onderscheid niet nodig; zij zien predictieve validiteit als specifieke vorm van begripsvaliditeit.
De relatie tussen predictor en criterium vormen een onderdeel van het theoretische netwerk van het door de test
geoperationaliseerde begrip.
Toch worden ze afzonderlijk behandeld; in het onderwijs en de personeelspsychologie wordt veel gebruik wordt
gemaakt van het voorspellend vermogen van tests. Hierbij komen andere methodologische principes aan de orde dan bij
het proces van begripsvalidering.
, 8.2 Enkele andere onderscheidingen in validiteit
8.2.1 Vier belangrijke soorten validiteit
1. Predictive validity (voorspellende validiteit)
In welke mate voorspellingen, gedaan op basis van testprestaties, worden bevestigd door gegevens of observaties op
een later tijdstip. De toepassing komt veel voor (bv. schoolkeuze, verdeling van functies, keuze van therapie) .
Lijkt op predictieve validiteit, maar predictieve validiteit is breder: niet alleen het voorspellen van een toekomstig
criterium, maar ook van ieder extern criterium in het heden of verleden.
2. Concurrent validity (gelijktijdige validiteit)
In welke mate testresultaten corresponderen met gelijktijdig beschikbare criteriumgegevens. Het verschil met predictive
validity is het moment van het verzamelen van de criteriumgegevens: gelijktijdig i.p.v. in de toekomst. Komt ook veel
voor (bv. test valideren door testresultaten van leerlingen te vergelijken met gelijktijdige prestatiebeoordelingen door een leraar) .
Het onderscheid tussen predictive en concurrent validity is waardevol; als men niet op een toekomstig criterium kan
wachten, kan men een gelijktijdig criterium gebruiken. Maar de resultaten moeten niet zonder meer gegeneraliseerd
worden naar een toekomstig criterium.
3. Content validity (inhoudsvaliditeit)
In hoeverre de inhoud van de test het geheel van situaties, kennisinhouden of vaardigheden representeert, van waaruit
conclusies moeten worden getrokken over het onderzochte. Het geeft een indicatie van de mate waarin de test (toets) het
domein van mogelijke items representeert. Wordt vooral veel gebruikt bij onderwijskundig meten (bv. in hoeverre men uit
een proefwerk Franse grammatica conclusies mag trekken over het gehele kennisdomein van Franse grammatica) .
Het wordt vastgesteld door deskundigen die de representativiteit van de gekozen items beoordelen. En de vraag is of het
geheel van vaardigheden zelf correct is gedefinieerd; zo’n definitie is niet objectief en absoluut, maar een subjectief
oordeel van deskundigen (goed om na te gaan in hoeverre deskundigen het met elkaar eens zijn) .
Bezwaar tegen inhoudsvaliditeit: een empirisch onderzoek met behulp van gegevens van vergelijkbare toetsen ontbreekt
vaak. Nieuwe toetsen worden vaak gevalideerd op oude toetsen (dat is een cirkelredenering). En het leunt zwaar op
subjectieve oordelen.
Een formele definitie zou kunnen zijn: ‘de sterke samenhang tussen de testscore en de totaalscore op het gehele
itemdomein’. Die totaalscore is in de praktijk echter niet beschikbaar, waardoor er gebruik gemaakt moet worden van
een representatieve steekproef, met equivalente tests. En dat lijkt weer veel op parallellie. Maar een goede
betrouwbaarheid betekent niet automatisch ook een goede (inhouds)validiteit.
Bij studietoetsen kan men wel met empirisch onderzoek belangrijke informatie verzamelen, maar daarmee worden de
grenzen van inhoudsvaliditeit overschreden en komt men op het terrein van de begripsvaliditeit.
4. Construct validity (constructvaliditeit)
Onderzoeken welke psychologische eigenschappen (hypothetische constructen) door de test worden gemeten. Dit
construct wordt vervolgens weergegeven in de testprestatie. Constructvaliditeit bestaat uit drie onderdelen:
(1) Psychologische verbeeldingskracht: uitvinden welke eigenschappen een verklaring zouden kunnen geven voor de
testprestatie, gebaseerd op observatie en logische bestudering van de test.
(2) Logische operatie: het afleiden van toetsbare hypothesen uit de theorie die het construct verklaart.
(3) Methodologisch proces: het uitvoeren van een empirisch onderzoek om deze hypothesen te toetsen.
Constructvaliditeit komt in de buurt van betekenisanalyse (begripsvaliditeit): m.n. het exploratieve onderzoek en het
onderzoek naar begripsvaliditeit, maar dan breder. Van begripsvaliditeit is pas sprake als vragen naar de betekenis van
de test alleen beantwoord kunnen worden door gericht onderzoek naar de relatie tussen de testscore en andere
operationaliseringen van hetzelfde begrip.
De definitie van begripsvaliditeit is dus enger dan die van constructvaliditeit. De exploratieve vraag naar wat de test
eigenlijk meet, wordt besproken bij betekenisanalyse (zie 8.4.2).
8.2.2 Andere onderscheidingen in het begrip validiteit
Specifieke varianten van begripsvaliditeit zijn synthetische validiteit en soortgenootvaliditeit, eraan verwant zijn
indrukvaliditeit en incrementele validiteit.