Testtheorie | Marleen de Jong
Begrippen Testtheorie
Hoorcollege 1 – Inleiding en basiskennis statistiek
Construct = iets wat je niet direct kunt meten, maar waarvoor je items gebruikt als indicatoren
hiervoor, bijv. perfectionisme
Itemscore = score die wordt toegekend aan antwoorden
̅ = het gemiddelde van de testscores X
Gemiddelde 𝑿
∑𝑁
𝑖=1 𝑋𝑖
𝑋̅ =
𝑁
̅ = het gemiddelde van de afwijkingsscores/deviatiescores x; deze is altijd 0
Gemiddelde 𝒙
∑𝑁
𝑖=1 𝑥𝑖
𝑥̅ =
𝑁
Gemiddelde 𝒛̅𝑿 = het gemiddelde van de standaardscores 𝑧𝑋 ; deze is altijd 0
∑𝑁
𝑖=1 𝑧𝑋𝑖
𝑧̅𝑋 =
𝑁
Deviatiescore x = het verschil tussen de geobserveerde score X en het gemiddelde 𝑋̅
𝑥 = 𝑋 − 𝑋̅
Variantie 𝑺𝟐𝑿 / 𝑺𝟐 (𝑿) = de variantie van de testscores X; spreidingsmaat die moeilijk te interpreteren is
∑𝑁 ̅ 2 ∑𝑁
𝑖=1(𝑋 − 𝑋 )
2
𝑖=1 𝑥𝑖
𝑆𝑋2 = =
𝑁 𝑁
Variantie binair item 𝑺𝟐𝑿 / 𝑺𝟐 (𝑿) = de variantie van de testscores X bij een binair item (2
keuzemogelijkheden)
𝑆𝑋2 = 𝑝𝑞
Variantie 𝑺𝟐𝒙 / 𝑺𝟐 (𝒙) = de variantie van de afwijkingsscores/deviatiescores x; deze is altijd gelijk aan de
variantie van de testscores (𝑆𝑋2 ), doordat er sprake is van dezelfde spreiding. Het enige wat verschilt is
dat je 𝑋 − 𝑋̅ hebt gedaan
∑𝑁
𝑖=1(𝑥 − 𝑥̅ )
2
𝑆𝑥2 =
𝑁
Variantie 𝑺𝟐𝒛𝑿 / 𝑺𝟐 (𝒛𝑿 ) = de variantie van de standaardscores 𝑧𝑋 ; deze is altijd 1
∑𝑁
𝑖=1(𝑧𝑋 − 𝑧̅𝑋 )
2
𝑆 2 (𝑧𝑋 ) =
𝑁
, Testtheorie | Marleen de Jong
Standaarddeviatie 𝑺𝑿 / 𝑺(𝑿) = de standaarddeviatie van de testscores X
𝑆𝑋 = √𝑆𝑋2
Standaarddeviatie 𝑺𝒙 / 𝑺(𝒙) = de standaarddeviatie van de afwijkingsscores/deviatiescores x
𝑆𝑥 = √𝑆𝑥2
Standaarddeviatie 𝑺𝒛𝑿 / 𝑺(𝒛𝑿 ) = de standaarddeviatie van de standaardscores 𝑧𝑋 ; de gemiddelde
afstand tot het gemiddelde waar de meeste scores in liggen; deze is altijd 1
𝑆𝑧𝑋 = √𝑆𝑧2𝑋
Standaardscore = z-score = gestandaardiseerde versie van de testscore X; geeft het aantal
standaarddeviaties dat de testscore van het gemiddelde af ligt weer
𝑥
𝑧𝑥 =
𝑆𝑋
Covariantie 𝑺𝑿𝒀 = maat die de lineaire samenhang tussen twee variabelen uitdrukt; de samenhang
tussen item X en item Y; aan de hand van de covariantie kun je enkel iets zeggen over de richting van
de samenhang. Positieve covariantie = positief scoren op het ene item betekent positief scoren op het
andere item en hoog scoren op meerdere items is een indicatie dat er een onderliggende trek is
∑𝑁
𝑖=1 𝑥𝑖 𝑦𝑖
𝑆𝑋𝑌 = 𝑐𝑋𝑌 =
𝑁
Covariantie 𝑺𝒛𝑿𝒛𝒀 = de gestandaardiseerde samenhang tussen item X en item Y; is gelijk aan 𝑟𝑋𝑌
∑𝑁
𝑖=1 𝑧𝑥𝑖 𝑧𝑦𝑖
𝑆𝑧𝑋𝑧𝑌 =
𝑁
Correlatie 𝒓𝑿𝒀 = de samenhang tussen X en Y; doordat de correlatie gestandaardiseerd is, kun je iets
zeggen over de richting en de sterkte van het verband
𝑆𝑋𝑌
𝑟𝑋𝑌 =
𝑆𝑋 × 𝑆𝑌
Variantie-covariantiematrix/ covariantiematrix = matrix met op de diagonaal de varianties en op de
buitendiagonaal de covarianties; de testscore variantie 𝑆𝑋2 is gelijk aan alle elementen uit de variantie-
covariantiematrix opgeteld
Correlatiematrix = matrix met een 1 op de diagonaal (=samenhang van item met zichzelf) en op de
buitendiagonaal de correlaties tussen de verschillende items
, Testtheorie | Marleen de Jong
Hoorcollege 2 – Eigenschappen van tests en items
Maximum performance test = test voor het meten van vaardigheden: degene die de test krijgt doet
zijn best om zo goed mogelijk te presteren. Antwoorden zijn in meer of mindere mate goed en de
antwoordmogelijkheden zijn al van tevoren vastgesteld, bijv. tentamen of intelligentietest
Typical performance test = test die iets relevants zegt over personen, bijv.
persoonlijkheidseigenschappen, attitudes, depressieniveau. Je bent hierbij niet zozeer op zoek naar de
hoogst mogelijke prestatie, maar dat je zo’n typisch en eerlijk mogelijk beeld van jezelf weergeeft op
de test → het is belangrijker om eerlijke antwoorden te geven dan dat je de hoogst mogelijke
prestatie haalt. Moet een brede range aan antwoordmogelijkheden bieden en er is geen goed
antwoord; vaak met Likert schalen waarbij mensen moeten aangeven of ze het er in meerdere of
mindere mate mee eens zijn
Power test = test waarbij vaardigheid wordt gemeten zonder tijdsdruk. Meer vaardige personen
maken meer vragen goed
Speed test = test waarbij prestaties worden gemeten onder zware tijdsdruk. Vragen zijn van triviale
moeilijkheid en meer vaardige personen beantwoorden meer vragen
Normgerichte test = test die personen vergelijkt met de rest van de populatie → hoe verhoudt iemand
zich tot de rest van de mensen uit de populatie? Goede normgegevens over deze populatie zijn van
groot belang
Criteriumgerichte test = test die personen vergelijkt met een absolute standaard. Het testoordeel staat
los van het prestatieniveau in de populatie, bijv. tentamen testtheorie
Indicatieve itemscores = hogere itemscore betekent ‘hoger’ op de eigenschap, indicatief zijn voor het
te meten construct (is bij typical performance tests lastiger, omdat sommige items contra-indicatief
geformuleerd zijn → herscoren)
Testscore = composite score = samengestelde score, optelsom van de itemscores; testhandleiding
geeft instructies over hoe de score geïnterpreteerd moet worden. Zijn formeel gezien van ordinaal
meetniveau
𝑋 = 𝑋1 + 𝑋2
Testscore-variantie 𝑺𝟐𝑿 = de variantie van X, bepalen aan de hand van variantie van itemscore 1 en 2 en
aan de hand van 2 keer de covariantie van die 2 itemscores. Het getal voor de testscore-variantie is op
2 manieren groter te maken: (1) een groter getal voor de individuele itemscore varianties, (2) een
groot getal voor de covariantie (items moeten sterk samenhangen (sterk positieve covariantie), want
dit zorgt voor een grotere optelsom). Berekenen met formule voor samengestelde scores
𝑆𝑋2 = 𝑆𝑋21 + 𝑆𝑋22 + 2𝑟𝑋1 𝑋2 𝑆𝑋1 𝑆𝑋2
𝑆𝑋2 = 𝑆𝑋21 + 𝑆𝑋22 + 2𝑆𝑋1 𝑆𝑋2
, Testtheorie | Marleen de Jong
Nominaal meetniveau = verschillende categorieën, geen echte ordening; alleen nuttig bij het indelen
van mensen in groepen. Er worden wel getallen toegekend aan de verschillende categorieën, maar
deze dienen alleen om de verschillende categorieën van elkaar te kunnen onderscheiden, bijv.
persoonlijkheidstypes, man/vrouw
Ordinaal meetniveau = we zijn in staat om de verschillende scores te ordenen, iemand met een score
van 17 heeft hoger gescoord dan iemand met een score van 15. Getallen onderscheiden categorieën
en weerspiegelen tevens een ordening. De verschillen tussen deze getallen zijn niet betekenisvol (je
kunt niet zomaar zeggen dat groep 2 een 2x zo hoge leeftijd aangeeft als groep 1 of dat het
leeftijdsverschil tussen groep 1 en 2 even groot is als tussen 2 en 3), bijv. korte Likertschalen, eens-
neutraal-oneens, vmbo-havo-vwo
Interval meetniveau = mensen zijn niet alleen geordend, maar de afstanden tussen de testscores zijn
ook te vergelijken. Getallen weerspiegelen niet alleen een ordening, maar ook verschillen tussen
getallen. De verschillen tussen getallen zijn wel betekenisvol (het verschil tussen IQ=80 en IQ=120 is
even groot als het verschil tussen IQ=100 en IQ=140). Geen absoluut nulpunt (nul betekent niet echt
nul, mensen met een IQ van 120 zijn niet per se 2x zo intelligent zijn als mensen met een IQ van 60) →
verhoudingen zijn niet betekenisvol, bijv. temperatuur
Ratio meetniveau = meetniveau met ordening en een betekenisvol nulpunt (nul betekent echt nul). De
hoeveelheid van het verschil is wel duidelijk, bijv. inkomen, leeftijden, aantal goed beantwoorde
vragen in een toets
Kwantitatieve score = een toename van 1 punt moet altijd dezelfde toename in de te meten
eigenschap weerspiegelen
p-waarde van item = proportie van de mensen die het item correct hebben beantwoord; de proportie
respondenten met een score 1 op een dichotoom item. Deze waarde dient hoger te zijn dan iedere a-
waarde en is voor het maximaliseren van de itemscore variantie idealiter ongeveer gelijk aan de q-
waarde. De p-waarde is ook de gemiddelde itemscore. Het moeilijkste item heeft de laagste p-waarde
en het makkelijkste item de hoogste
q-waarde van item = de proportie van de mensen die het item incorrect hebben beantwoord; 1 − 𝑝; is
wat betreft het maximaliseren van de itemscore variantie idealiter ongeveer even groot als de p-
waarde
Item-respons = bij meerkeuzevraag de selectie uit antwoord a, b, c of d
a-waarde = de proportie van de mensen die een specifiek fout alternatief, een bepaald onjuist
antwoord kiest; er zijn er dus meerdere van voor elke multiple choice vraag, want iedere specifieke
foute antwoordoptie heeft een eigen a-waarde; q-waarde is de optelsom van alle a-waardes; idealiter
zijn alle a-waardes ongeveer even hoog, want dit betekent dat alle foute opties even vaak gekozen
worden
𝑞 = 𝑎1 + 𝑎2 + 𝑎3
Slecht item = (1) als de kans goed op of onder de gokkans ligt (= p-waarde is lager dan een a-waarde),
(2) als de verschillende onjuiste antwoorden (afleiders) niet even vaak gekozen worden (= als de a-
waardes niet van vergelijkbare grootte zijn) en (3) als vrijwel iedereen hem goed of fout heeft (= als de
p-waarde niet ongeveer even groot is als de q-waarde)