PB1502 Test- en toetstheorie H5, 6, 7 en Appendix
H5 Afneming van tests en verwerking van testgegevens (pp. 146-189).........................................................................4
5.1 Tests afnemen (standaardisatie)...........................................................................................................................4
De objectieve testsituatie...............................................................................................................................4
Gedrag van de proefpersoon..........................................................................................................................4
Gedrag van de proefleider..............................................................................................................................4
5.2 Scoring van antwoorden......................................................................................................................................5
5.2.1 Scoring van reacties op items met een open-vraagvorm............................................................................5
Coderingssysteem..........................................................................................................................................5
5.2.2 Scoring van reacties op geprecodeerde items.............................................................................................5
Correctiesysteem............................................................................................................................................5
5.2.3 Toevalscorrectie..........................................................................................................................................5
Vier kritische kanttekeningen bij de correctieformules.................................................................................6
5.2.4 Weging van itemscores...............................................................................................................................7
5.3 Testen per computer............................................................................................................................................7
5.3.1 Technologische bijdragen en veranderingen...............................................................................................7
Administratieve veranderingen......................................................................................................................7
Itembank.........................................................................................................................................................7
Geautomatiseerd systeem voor instructie en toetsafname.............................................................................7
‘On-line testing’.............................................................................................................................................8
Diagnostisch toetsen......................................................................................................................................8
Technologische veranderingen.......................................................................................................................8
5.3.2 Wetenschappelijke bijdragen en veranderingen.........................................................................................8
Meting van intelligentiecomponenten............................................................................................................8
Problemen door het gebruik van computers..................................................................................................8
Invloed van computergestuurde tests op testgedrag......................................................................................8
Verschillen tussen conventionele en computergestuurde tests.......................................................................8
5.3.3 Adaptief testen............................................................................................................................................9
5.4 Bewerkte scores en normen.................................................................................................................................9
Ruwe score.....................................................................................................................................................9
Bewerkte scores...........................................................................................................................................10
Normen.........................................................................................................................................................10
5.4.1 Vergelijking met een absolute standaard (absoluut meten)......................................................................10
5.4.2 Verhoudingsnormen..................................................................................................................................10
5.4.3 Vergelijking en normen gebaseerd op een rangorde.................................................................................11
Rangorde......................................................................................................................................................11
Percentielscores en percentiele normen.......................................................................................................11
5.4.4 Vergelijking en normen gebaseerd op gemiddelde en spreiding..............................................................12
Standaardscores of z-scores.........................................................................................................................12
Genormaliseerde standaardscores................................................................................................................12
Overige genormaliseerde standaardscores...................................................................................................13
T-scores..................................................................................................................................................13
Stanines..................................................................................................................................................13
Deviatie-IQ.............................................................................................................................................13
H6 Betrouwbaarheid (pp. 190-252)..............................................................................................................................14
Introductie digitale werkboek (samenvatting van de presentaties).........................................................................14
1. Klassieke Testtheorie (Leontjevas & Pat-El).................................................................................................14
2. Spearman-Brown-formule voor ‘testverlenging’ (Leontjevas & Pat-El)......................................................15
6.0 Inleiding hoofdstuk 6.........................................................................................................................................16
, 6.1 Herhaalbaarheid van metingen..........................................................................................................................16
6.2 De klassieke testtheorie.....................................................................................................................................17
6.2.1 Betrouwbare score en meetfout................................................................................................................17
Eigenschappen van betrouwbare score en meetfout voor een individu.......................................................17
Eigenschappen van betrouwbare score en meetfout in de populatie...........................................................17
6.2.2 Betrouwbaarheid van testscores en de standaardmeetfout.......................................................................18
Definitie van betrouwbaarheid.....................................................................................................................18
Acceptabele waarden van de betrouwbaarheid............................................................................................18
Standaardmeetfout van de testscore.............................................................................................................19
6.2.3 Belangrijke onderscheidingen..................................................................................................................19
6.3 Bepalingen van de betrouwbaarheid.................................................................................................................19
6.3.1 Parallelvormmethode................................................................................................................................19
6.3.2 Test-hertestmethode..................................................................................................................................20
6.3.3 Splitsingsmethode.....................................................................................................................................20
Correctie.......................................................................................................................................................20
Splitsing.......................................................................................................................................................21
6.3.4 Interne-consistentiemethode.....................................................................................................................21
Alfa is een ondergrens voor de betrouwbaarheid.........................................................................................21
Alfa als ondergrens in relatie tot populatie en steekproef............................................................................22
Interpretatie en gebruik van alfa..................................................................................................................22
Alternatieve formules.............................................................................................................................22
Berekening van alfa................................................................................................................................22
Selectie van items ter verhoging van alfa...............................................................................................22
De mythe van interne consistentie..........................................................................................................23
Alternatieven voor alfa.................................................................................................................................23
Lambda2-coëfficiënt...............................................................................................................................23
Mucoëfficiënten......................................................................................................................................23
6.4 Speciale onderwerpen........................................................................................................................................23
6.4.1 Nauwkeurigheid van metingen.................................................................................................................23
Lineaire regressie.........................................................................................................................................23
Twee methoden om de betrouwbare score T te schatten..............................................................................24
Methode 1 – standaardmeetfout.............................................................................................................24
Methode 2 – standaardschattingsfout.....................................................................................................24
Vergelijking methoden 1 en 2.................................................................................................................25
Vergelijking van testscores...........................................................................................................................25
6.4.2 Betrouwbaarheid en testlengte..................................................................................................................26
Spearman-Brown-formule...........................................................................................................................26
Testverlenging..............................................................................................................................................26
6.4.3 Betrouwbaarheid en validiteit...................................................................................................................26
Betrouwbaarheidsindex................................................................................................................................26
Validiteitscoëfficiënt....................................................................................................................................27
Attenuatiecorrectie.......................................................................................................................................27
6.4.4 Betrouwbaarheid van verschilscores........................................................................................................27
6.4.5 Betrouwbaarheid en spreiding van scores................................................................................................28
6.4.6 Betrouwbaarheid van heterogene tests.....................................................................................................28
Gestratificeerde alfacoëfficiënt....................................................................................................................28
6.4.7 Generaliseerbaarheid van metingen..........................................................................................................29
Generaliseerbaarheidstheorie.......................................................................................................................29
6.5 Tot besluit..........................................................................................................................................................29
H7 Nieuwe ontwikkelingen in testtheorie en testconstructie (pp. 253-327).................................................................30
, Introductie digitale werkboek (samenvatting van de presentatie)...........................................................................30
Moderne Testtheorie (Leontjevas & Pat-El)......................................................................................................30
7.0 Inleiding hoofdstuk 7.........................................................................................................................................32
7.1 Principes en begrippen van de item-responstheorie..........................................................................................32
Score op item g: Xg.......................................................................................................................................32
Meetwaarde van persoon i: θi.......................................................................................................................32
Succeskans: P (Xg = 1|θ)θ))..............................................................................................................................32
Item-responsfunctie......................................................................................................................................33
Het algemene model.....................................................................................................................................33
7.2 Enkele modellen uit de item-responstheorie.....................................................................................................33
7.2.1 Het Rasch-model......................................................................................................................................34
7.2.2 Modellen met resp. twee en drie itemparameters.....................................................................................35
1. Het Birnbaum-model................................................................................................................................35
2. Het drie-parameter logistische model......................................................................................................36
7.2.3 De modellen volgens Mokken..................................................................................................................36
Het model van monotone homogeniteit.......................................................................................................36
Het model van dubbele monotonie..............................................................................................................37
7.2.4 De onderlinge relaties van de item-responsmodellen...............................................................................38
7.3 Meten met de item-responsmodellen................................................................................................................39
7.3.1 Betekenis en gebruik van metrische schalen............................................................................................39
7.3.2 Nauwkeurigheid van de meting................................................................................................................39
Informatiefunctie..........................................................................................................................................40
7.4 Praktisch gebruik van de item-responstheorie...................................................................................................40
7.4.1 De itembank en equivalering van scores en kenmerken van items..........................................................40
7.4.2 Testconstructie op basis van een itembank...............................................................................................41
Testinformatiefunctie en doelinformatiefunctie...........................................................................................41
7.4.3 Adaptieve tests..........................................................................................................................................41
7.4.4 Vraagonzuiverheid....................................................................................................................................42
7.4.5 Afwijkende patronen van itemscores........................................................................................................43
Persoon-responsfunctie................................................................................................................................43
7.5 Tot besluit enkele speciale onderwerpen...........................................................................................................43
7.5.1 Item-responstheorie voor polytoom gescoorde items...............................................................................43
7.5.2 Vergelijking klassieke testtheorie en item-responstheorie........................................................................44
7.5.3 Rol van item-responstheorie in psychologische theorievorming..............................................................44
Appendix (pp. 462-473)................................................................................................................................................45
Eenvoudige statistische begrippen..........................................................................................................................45
1. Centrale tendentie..........................................................................................................................................45
2. Spreiding........................................................................................................................................................45
3. Transformaties...............................................................................................................................................46
4. Samenhang.....................................................................................................................................................46
5. Lineaire transformaties..................................................................................................................................47
6. Lineaire combinaties......................................................................................................................................47
Drenth, P. J. D., & Sijtsma, K. (2006). Testtheorie: Inleiding in de theorie van de psychologische test en zijn
toepassingen (4e ed.). Houten, Nederland: Bohn Stafleu van Loghum.
,H5 Afneming van tests en verwerking van testgegevens (pp. 146-189)
5.1 Tests afnemen (standaardisatie)
Een test afnemen is een complex en veelzijdig proces, dat komt door:
1. Variërende testsituaties: testsituaties variëren van zakelijk neutraal tot hoge mate van persoonlijke inzet, zoals bij:
◦ Schriftelijke test: instructie krijgen en daarna de test alleen maken zonder hulp (persoonlijkheidstest, tentamen);
◦ Rollenspel: zowel proefleider als proefpersonen spelen actieve rol (assessment-center);
◦ Leerpotentieeltest: testen en trainen van cognitieve vaardigheden wisselen elkaar herhaaldelijk af.
2. Verschillen in motivatie, samenwerking en onbevangenheid: proefpersonen verschillen in eigenschappen die de
relatie met de testleider kunnen beïnvloeden.
Een apart probleem hierbij is testervaring (test-wiseness); proefpersonen bereiden zich voor en oefenen op de test.
3. Variëteit in instructietechniek en benodigde oefening: ook proefleiders kunnen variëren in training, ervaring,
inzicht, sensitiviteit en bereidheid tot contact. Sommige tests vereisen een korte instructie, andere een lange training
(bv. RAKIT).
Standaardisatie: het belangrijkste kenmerk van een test is de standaardisatie van het afnemen. Alleen dan kunnen
waargenomen verschillen tussen proefpersonen worden toegeschreven aan henzelf. Enkele aspecten hiervan zijn (1) de
objectieve testsituatie, (2) het gedrag van de proefpersonen en (3) het gedrag van de proefleider.
De objectieve testsituatie
De onderzochten moeten in maximaal gelijke omstandigheden worden getest. Dat is vooral van belang bij groepstests
(m.n. bij snelheidstests), maar het is ook belangrijk voor individuele tests. Voorwaarden hiervoor zijn:
◦ Een goed uitgewerkte instructie en de eis dat de proefleider zich hieraan moet houden.
◦ Het weren van opvallende of specifieke omgevingsinvloeden (bv. temperatuur, lawaai, licht, ventilatie, schrijfcondities) .
◦ Storingen tijdens testafneming voorkomen (bv. door mensen die luid praten, binnenkomen of weggaan).
◦ Afkijken (spieken) voorkomen d.m.v. surveilleren.
Gedrag van de proefpersoon
Sommigen zijn meer gemotiveerd en coöperatief, terwijl anderen dat niet zijn. Ook kan een proefpersoon moe zijn
waardoor hij of zij de een slechtere prestatie levert dan normaal. Proefpersonen kunnen ook de test ‘doorhebben’ of
sociaal wenselijk gedrag vertonen tijdens het testen. Sommige factoren zijn controleerbaar (vermoeidheid, emotionele
opwinding). Andere factoren zijn minder controleerbaar (bekendheid door voorgaande ervaringen, verwachtingen over
moeilijkheid etc).
Personen kunnen heel verschillend reageren op stimulansen of negatieve prikkels. De proefleider moet optimaal
stimulerend zijn, door middel van een normale, natuurlijke relatie met de proefpersoon. Motivatie is moeilijk te
controleren maar heeft veel invloed op prestaties. Het streven naar een ongedwongen relatie kan daarbij deels helpen.
Persoonlijkheidstests kan men opzettelijk saboteren of invullen naar wat men veronderstelt dat de bedoeling ervan is.
Angstig zijn voor de gevolgen heeft ook invloed, die invloed is sterker naarmate de gevolgen belangrijker zijn. Er wordt
onderscheid gemaakt tussen:
◦ Testangst (state anxiety);
◦ Angstigheid (trait anxiety) stabiel persoonlijkheidskenmerk: minder situatie-invloed;
◦ Positieve faalangst: geringe mate van angst is bevorderlijk;
◦ Negatieve faalangst: sterke mate van angst is schadelijk.
Gedrag van de proefleider
Met name bij individuele tests is er een wisselwerking tussen de testleider en de proefpersoon. Dat kan eenvoudiger
gecontroleerd worden dan het gedrag van de proefpersoon. Belangrijk daarbij is voldoende ervaring met testen, de test
zelf goed beheersen en de testinstructie goed kennen en volgen. Beslissingen kunnen nemen gebaseerd op eigen
psychologisch inzicht.
Psychologische mechanismen van de proefleider hebben ook invloed, zoals vooroordelen, sympathieën, de invloed van
de eerste indruk, eerdere vermoedens terug willen vinden, de neiging om ‘ideaaltypen’ te willen ontdekken (bv. de ‘echte’
gevoelsarme psychopaat) of een theorie willen bevestigen. Om dit te voorkomen moet de proefleider hiervan bewust
worden en zelfcontrole en zelfcorrectie hebben. Persoonskenmerken van de testleider zelf kunnen ook invloed hebben
op het testgedrag van onderzochte.
,Hoe men met deze problemen om kan gaan, hangt af van het belang van het onderzoek. Men kan:
◦ Elementen van de testsituatie in de evaluatie verwerken: als het doel is het genereren van hypothesen of doelen
voor verder onderzoek. Maar subjectieve impressies bieden geen waarheidsgaranties.
◦ Doen alsof de invloeden genegeerd kunnen worden: bij voorspellende of classificerende uitspraken die belangrijk
zijn voor het individu. Door een zo normaal mogelijke relatie op te bouwen met een positieve toon.
◦ Eventueel kan men bij de interpretatie van de objectieve scores rekening houden met de ongewenste invloeden.
Bij een dergelijke objectieve benadering offeren we iets op van het unieke van de persoon en de situatie, maar we
reduceren daarbij de onbetrouwbaarheid, waardoor de vergelijkbaarheid toeneemt.
5.2 Scoring van antwoorden
5.2.1 Scoring van reacties op items met een open-vraagvorm
Coderingssysteem
Bij meer subjectieve oordeelsvorming laten de scores een grotere foutenmarge zien. Reacties op open vragen zijn
verbaal (woordelijke reactie) of non-verbaal (bv. doolhoventest in intelligentietest (RAKIT) of een rollenspel) . Bij de scoring
van reacties dreigt het gevaar van subjectiviteit en lage overeenstemming tussen beoordelaars (interbeoordelaars-
betrouwbaarheid). Dat kan worden gereduceerd door een goed coderingssysteem: stelsel van regels en voorschriften dat
volledig, duidelijk en ondubbelzinnig is: bv. de checklist.
1. Checklist
Een lijst waarop wordt bijgehouden welke eigenschappen wel of niet aanwezig zijn (zie figuur 5.1 p. 153). In het
voorbeeld wordt ook naar frequenties gevraagd en lijken de gedragingen indicaties te zijn van achterliggende
constructen, waardoor het meer lijkt op een ‘inventory’ of persoonlijkheidsvragenlijst.
Het geeft houvast voor de beoordelaars en zo worden alle personen op dezelfde gedragsaspecten beoordeeld.
Beoordelaars moeten vooraf goed geïnstrueerd worden en oefenen, dat verhoogt de overeenstemming.
Een hogere overeenstemming leidt echter niet automatisch ook tot een goede validiteit: overeenstemming is wel
noodzakelijk, maar niet voldoende voorwaarde voor validiteit. De checklist is te beschouwen als een ‘test’ en moet
daarom aan dezelfde voorwaarden voldoen.
5.2.2 Scoring van reacties op geprecodeerde items
Correctiesysteem
Belangrijk hierbij is nauwkeurigheid (zo goed mogelijk) en efficiëntie (zo snel en goedkoop mogelijk). Bij de keuze-
antwoordenvorm kent men drie manieren van scoring:
1. Handscoring
Is het meest bewerkelijk; correctoren tellen aantal goede/foute/lege/onvoltooide antwoorden m.b.v. een correct
voorbeeld, transparante sleutel of kartonnen sleutel. Het nadeel is dat het veel tijd kost en er veel fouten worden
gemaakt.
2. Zelfscoring
Is een wat verouderde methode waarvan verschillende versies bestaan, zoals een doordrukprocedé zodat de score
op het onderliggende formulier direct zichtbaar is. Het is sneller en efficiënter dan handcorrectie, maar wel duurder.
3. Machinescoring
Een speciaal antwoordformulier waarop met potloodstreepjes het antwoord wordt aangeven (zie figuur 5.2 p. 155). Het
wordt machinaal geregistreerd en verwerkt, of via een computer; die kan meteen berekeningen uitvoeren, een
terugkoppeling geven en de gegevens toevoegen aan een gegevensbestand. Dat kan naast informatie over de
onderzochte ook informatie geven over de test zelf en de onderzochte groep, zoals verdelingen, spreidingen,
rangordes etc.
5.2.3 Toevalscorrectie
De eenvoudigste methode om te voorkomen dat de onderzochte door gissen een hogere score kan krijgen is de
toevalscorrectie. Er zijn twee toestanden bij het antwoorden: zeker weten en puur gissen, waardoor er drie soorten
antwoorden gegeven kunnen worden: (1) goede antwoorden die het gevolg zijn van kennis, (2) goede antwoorden die
het gevolg zijn van gissen en (3) foute antwoorden die het gevolg zijn van gissen.
, Het aantal goede antwoorden door kennis (XC) kan berekend worden door van het totale aantal goed (X) het deel af te
trekken dat door gissen goed was: het aantal fout (k-X) gedeeld door A-1.
A Aantal antwoordmogelijkheden per item
1
/A Kans om het goede antwoord te gokken
(A-1)
/A Kans op een fout antwoord
X Totaal aantal goede antwoord (deels door gissen + deels door kennis)
k −X
XC Aantal goede antwoorden door kennis (c = corrected) X C = X− [5.1]
A−1
k Aantal items
1
/(A-1) Dit deel van het aantal foute items is het aantal items dat door gissen goed was
Datzelfde principe kan toegepast worden als de respondent voor niet-beantwoorde items alsnog punten ontvangt. Naar
verwachting zou bij blind gissen een deel van die items goed zijn, dat wordt opgeteld bij het aantal ‘goed’.
Xf Aantal fout
k – X – Xf Aantal onbeantwoorde items
k− X−X f
XC Aantal goede antwoorden door kennis X C= X + [5.2]
A
Vier kritische kanttekeningen bij de correctieformules
1. Reële giskans is ongelijk aan de theoretische giskans.
Er is geen scherp onderscheid tussen zeker weten en puur gissen; door partiële kennis (onvoldoende om met zekerheid
het goede antwoord te kunnen geven) kan de reële giskans anders zijn dan de theoretische giskans:
◦ Grotere giskans: respondenten kunnen door partiële kennis afstrepen wat niet goed is, hierdoor geeft formule
[5.1] een ondercorrectie: omdat de giskans groter is dan 1/A had XC lager moeten uitvallen.
◦ Kleinere giskans: als er een onjuist antwoord is dat erg verleidelijk is, zal een niet-weter dat sneller kiezen.
Hierdoor geeft formule [5.1] een overcorrectie: de kans op het goede antwoord is dan kleiner dan 1/A .
2. Fout antwoorden zonder gissen.
Iemand kan ook een fout antwoord geven op basis van verkeerd inzicht of onjuiste informatie; er is dan niet gegist.
Punten aftrekken van het aantal goede antwoorden is dan niet rechtvaardig.
3. XC heeft een grotere variantie dan X.
De gecorrigeerde score (XC), die gebaseerd is op tweekeuze-items, heeft een 4x zo grote variantie als de
ongecorrigeerde score (X) (zie [5.3] p. 158) en dus een 2x zo grote standaarddeviatie. Dat heeft een ongewenst effect
op andere berekeningen; als men de gecorrigeerde testscore optelt bij andere testscores (bv. bij intelligentietests) krijgt
de test met de gecorrigeerde scores een 2x zo groot gewicht, zonder dat dit te rechtvaardigen is.
k A [5.3]
X C =a+bX=− + X
4. Bij een lineaire relatie tussen XC en X: A−1 A−1 geldt dat de correlatie tussen XC en X
gelijk is aan 1: dus r(XC, X) = 1. Dit gegeven heeft drie belangrijke consequenties:
◦ 1. De ordening van personen en de afstand tussen personen volgens XC is dezelfde als die volgens X; de
giscorrectie heeft daarvoor geen gevolgen. Maar sommige personen kunnen daardoor wel onder de aftestgrens
vallen (bv. zakken voor het tentamen), terwijl dat op basis van de ongecorrigeerde testscore niet was gebeurd.
Voor het individu kan de giscorrectie dus grote gevolgen hebben. Een oplossing daarvoor is het aanpassen van
de aftestgrens.
◦ 2. De correlatie van de ongecorrigeerde testscore X en een andere testscore Y is gelijk aan de correlatie tussen
XC en Y (zie appendix formule [A.18]). Dat impliceert dat men met beide scores evengoed criteriumscore Y kan
voorspellen; de gecorrigeerde score is hiervoor dus net zo geschikt de ongecorrigeerde score.
◦ 3. De betrouwbaarheid van X en XC is gelijk. Maar dat geldt niet voor formule [5.2] omdat in deze formule de
relatie tussen XC en X niet lineair is.