Aantekeningen Testtheorie
Hoorcollege 1. Inleiding en basiskennis statistiek
• Test als redding van psychologie
- Onderzoek naar niet-observeerbare eigenschapen → oplossing: psychologische testen
• Testtheorie
- Zorgen voor goede psychologische tests essentieel
- Heel vakgebied binnen de psychologie gewijd aan de vraag hoe we de kwaliteit van tests
kunnen onderzoeken en verbeteren (wordt ook wel psychometrie genoemd)
- Voorbeeld test: hoe perfectionistisch ben jij?
1. V
2. V
3. S
4. V
5. S
6. V
7. V
8. V
9. V
Puntentelling: 25 → categorie ROOD (alarmfase)
• Introductie
- Voor het meten van individuen gebruik je meestal een test met veel items
- Items als indicatoren voor een construct (in dit geval bij het voorbeeld perfectionisme) →
latent
o Aan antwoorden (kwalitatief) worden scores (kwantitatief) toegekend
o Itemsscores worden verwerkt tot testscore
o Testscores worden geïnterpreteerd
- Wat kun je zeggen over iemands perfectionisme op basis van de testscore
o Zijn de testscores zinvol te interpreteren
o Meet de test wel perfectionisme
o Zijn de vragen/opdrachten wel een goede kwaliteit
o Zijn er wel genoeg vragen in de test
o Is een verschil van één punt groot genoeg om te concluderen dat ze verschillen in
perfectionisme
• Positiedriehoek over psychologische testen
- Ongeïnteresseerde: vindt alles met betrekking tot het meten
van psychologische constructen met tests volslagen
oninteressant
- Gelovige: neemt de testscore en interpretatie daarvan direct
voor waar aan, zonder enige bedenkingen
- Doemdenker: gelooft dat het onmogelijk is om met
psychologische tests iets over psychologische constructen te
zeggen
• Introductie (gevolg)
- Tests worden veel gebruikt om te meten in de psychologie,
meestal de handigste manier om aan gegevens te komen
- Als je goed en nauwkeurig wilt meten heb je een goede tests nodig
- Voor het maken van een goede vereist goed nadenken, goede kennis van de te meten
eigenschap, goed gebruik van statistische methoden → dit zijn handvaten van de testtheorie
, • Herhaling van descriptieve statistieken
- Variabele: iets wat varieert
𝑠𝑜𝑚 𝑣𝑎𝑛 𝑋
- Gemiddelde 𝑋̅ = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑝𝑒𝑟𝑠𝑜𝑛𝑒𝑛 𝑖𝑛 𝑑𝑒 𝑠𝑡𝑒𝑒𝑘𝑝𝑟𝑜𝑒𝑓
- Deviatiescore (afwijkingsscore) 𝑥 = 𝑋 − 𝑋̅
o Verdeling is gecentreerd met als gemiddelde 0
𝑠𝑜𝑚 𝑣𝑎𝑛 𝑥 2 𝑆𝑆
- Variantie 𝑠𝑋2 = 𝑁
= 𝑁
o Sum of squares 𝑆𝑆 = 𝑠𝑜𝑚 𝑣𝑎𝑛 𝑥 2
- Standaarddeviatie 𝑠𝑋 = √𝑠𝑋2
𝑥
- Standaardscores (z-scores) 𝑧𝑥 =
𝑠𝑋
o Gemiddelde altijd 0; standaarddeviatie altijd 1
• Relatie tussen twee variabelen
𝑠𝑜𝑚 𝑣𝑎𝑛 𝑥𝑖 𝑦1
- Covariantie 𝑠𝑋𝑌 = 𝑐𝑋𝑌 = 𝑁
𝑠𝑋𝑌
- Correlatie 𝑟𝑋𝑌 = 𝑠𝑋 ∙𝑠𝑌
• Matrixen
- Variantie-covariantiematrix
o Variantie op de diagonale elementen
o Covarianties op de buiten-diagonale elementen
- Correlatiematrix
o Enen op de diagonale elementen
o Correlaties op de buiten-diagonale elementen
Hoorcollege 2. Eigenschappen van test en items
• Wat is een psychologische test?
- Cronbach (1960): ‘a systematic procedure for comparing the behavior of two or more
people’
- Voorbeelden:
o Multiple choice vaardigheidstest
o Open-ended persoonlijkheidsvragenlijst
o Systematische gedragsobservatie
o Rorschach inktvlekkentest
- Drie cruciale eigenschappen:
o Gericht op gedragsmetig (observeerbaar)
o Systematisch (objectief)
o Vergelijken van verschillende personen (of van personen over tijd)
• Type test
- Test voor prestatieniveau (maximum) vs. gedragswijze (typical)
o Prestatieniveautests voor meten vaardigheden
o Gedragswijzetests voor meten van o.a. persoonlijkheidseigenschappen en attitudes
o Grote verschillen voor de aanpak bij de testontwikkeling
o Nauwelijks verschillen voor statistische analyse van testscores
- Twee type tests prestatieniveau:
o ‘Power’ en ‘speed’ tests
▪ Power tests meten vaardigheid zonder tijdsdruk → meer vaardige personen
maken meer vragen goed
▪ Speed tests meten prestaties onder zware tijdsdruk → vragen zijn van triviale
moeilijkheid; meer vaardige personen beantwoorden meer vragen
• Vb. Bourdon dot concentration test
,- Normgericht of criteriumgericht:
o Normgerichte tests vergelijken personen met de rest van de populatie
o Geode normgegevens over deze populatie van groot belang
o Criteriumgerichte tests vergelijken personen met een absolute standaard
o Testoordeel staat los van prestatieniveau in de populatie
▪ Vb. tentamen Testtheorie is criteriumgericht
• Wat hoort er bij een psychologische test?
- Testmateriaal
o Voorbeeld testmateriaal
o
- Testformulieren
o Voorbeeld (fictief) testformulier
o De stap antwoord naar score is de beoordeling
o Itemscores worden zo bepaald dat ze indicatief
zijn voor het te meten construct: hogere
itemscore → ‘hoger’ op de eigenschap
- Testhandleiding
1. Exacte testinstructie
2. Verwerkingsprocedure
3. Normtabellen
4. Bespreking van wetenschappelijke kwaliteiten
• Eigenschappen van de testscore
- Testscore is vaak optelsom van de itemscores
- Belangrijkste uitkomst van de test die gebruikt wordt
- Testhandleiding geeft instructies hoe de score geïnterpreteerd moet worden
- Bij normgerichte tests zullen normgegevens geraadpleegd moeten worden
o Vb. 30% van de jongengs 3 jaar hebben een score lager dan 3 (30e percentiel)
• Meetniveau testscore
- Testscore is een getal
- Interpretatie van dit geval hangt af van het meetniveau van de testscore:
o Nominaal (vb. persoonlijkheidstypes)
o Ordinaal (vb. korte Likert-schalen)
o Interval (vb. lange Likert-schalen)
▪ Testscores zijn optelsom van itemscores
▪ Itemscores duidelijk ordinaal
▪ Testscores daarmee formeel ook ordinaal
▪ Voor praktisch/statistisch gebruik doen we vaak alsof de testscore van
interval meetniveau is
▪ Alleen goed te verdedigen voor lange tests met een grote range aan scores
o Ratio (vb. Bourdon dot test)
, • Spreiding
- Spreiding als wenselijke eigenschap
o Testscores moeten verschillen tussen mensen blootleggen → dit kan alleen als
mensen verschillen in hun testscores, daarom zijn hoge mate van variatie in
testscore is wenselijk
o Omdat testscore is opgebouwd uit de itemscores:
▪ Hoge variantie op de itemscores ook wenselijk
▪ Hoge covariantie tussen de itemscores wenselijk
- Spreiding testscore
o Vb. testscore X is opgebouwd uit itemscores 𝑋1 en 𝑋2
o 𝑋 = 𝑋1 + 𝑋2
o Wat beïnvloedt de testscore-variantie 𝑠𝑋2
o Testscore-variantie omhoog als itemscore-variantie toeneemt
▪ Kwaliteitscheck items: voldoende variantie?
o Goede samenhang tussen items is dus ook belangrijk:
▪ Sommige mensen scoren hoog op vrijwel alle items
▪ Sommige mensen scoren laag op vrijwel alle items
▪ Daarmee dus meer spreiding op de testscore
• Multiple-choice items
- Vooronderzoek bij multiple-choice items
o MC items dichotoom gescoord: goed = 1; fout = 0
o p-waarde van een item geeft proportie correct aan
o p = gemiddelde itemscore
o q = 1 – p is de proportie incorrecte antwoorden op het item
o Idealiter p = q = 0.5, want dan maximale itemscore-variantie
- Vooronderzoek bij multiple-choice items (vervolg)
o Frequentie van gebruik van alternatieven geeft zicht op het functioneren van het
item
o Proportie personen die een specifiek fout alternatief kiest noemen we α-waarde
o 𝑞 = 𝑎1 + 𝑎2 + 𝑎3 + ⋯
o Omdat mensen die het antwoord niet weten kunnen gokken geldt:
▪ De p-waarde dient hoger te zijn dan iedere α-waarde
o Idealiter worden alle foute opties even vaak gekozen:
▪ 𝑎1 ≈ 𝑎2 ≈ 𝑎3
o Idealiter hoge itemscore variantie, wat we bereiken als:
▪ 𝑝≈𝑞
- Vooronderzoek bij polytome items
o Polytoom (tegenovergesteld aan
dichotoom): meer dan twee itemscores
die mogelijk zijn
o ‘Populariteit’ verwijst naar gemiddelde
itemscore
• Objectiviteit
- Vooronderzoek: objectiviteit van de test
Hoorcollege 1. Inleiding en basiskennis statistiek
• Test als redding van psychologie
- Onderzoek naar niet-observeerbare eigenschapen → oplossing: psychologische testen
• Testtheorie
- Zorgen voor goede psychologische tests essentieel
- Heel vakgebied binnen de psychologie gewijd aan de vraag hoe we de kwaliteit van tests
kunnen onderzoeken en verbeteren (wordt ook wel psychometrie genoemd)
- Voorbeeld test: hoe perfectionistisch ben jij?
1. V
2. V
3. S
4. V
5. S
6. V
7. V
8. V
9. V
Puntentelling: 25 → categorie ROOD (alarmfase)
• Introductie
- Voor het meten van individuen gebruik je meestal een test met veel items
- Items als indicatoren voor een construct (in dit geval bij het voorbeeld perfectionisme) →
latent
o Aan antwoorden (kwalitatief) worden scores (kwantitatief) toegekend
o Itemsscores worden verwerkt tot testscore
o Testscores worden geïnterpreteerd
- Wat kun je zeggen over iemands perfectionisme op basis van de testscore
o Zijn de testscores zinvol te interpreteren
o Meet de test wel perfectionisme
o Zijn de vragen/opdrachten wel een goede kwaliteit
o Zijn er wel genoeg vragen in de test
o Is een verschil van één punt groot genoeg om te concluderen dat ze verschillen in
perfectionisme
• Positiedriehoek over psychologische testen
- Ongeïnteresseerde: vindt alles met betrekking tot het meten
van psychologische constructen met tests volslagen
oninteressant
- Gelovige: neemt de testscore en interpretatie daarvan direct
voor waar aan, zonder enige bedenkingen
- Doemdenker: gelooft dat het onmogelijk is om met
psychologische tests iets over psychologische constructen te
zeggen
• Introductie (gevolg)
- Tests worden veel gebruikt om te meten in de psychologie,
meestal de handigste manier om aan gegevens te komen
- Als je goed en nauwkeurig wilt meten heb je een goede tests nodig
- Voor het maken van een goede vereist goed nadenken, goede kennis van de te meten
eigenschap, goed gebruik van statistische methoden → dit zijn handvaten van de testtheorie
, • Herhaling van descriptieve statistieken
- Variabele: iets wat varieert
𝑠𝑜𝑚 𝑣𝑎𝑛 𝑋
- Gemiddelde 𝑋̅ = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑝𝑒𝑟𝑠𝑜𝑛𝑒𝑛 𝑖𝑛 𝑑𝑒 𝑠𝑡𝑒𝑒𝑘𝑝𝑟𝑜𝑒𝑓
- Deviatiescore (afwijkingsscore) 𝑥 = 𝑋 − 𝑋̅
o Verdeling is gecentreerd met als gemiddelde 0
𝑠𝑜𝑚 𝑣𝑎𝑛 𝑥 2 𝑆𝑆
- Variantie 𝑠𝑋2 = 𝑁
= 𝑁
o Sum of squares 𝑆𝑆 = 𝑠𝑜𝑚 𝑣𝑎𝑛 𝑥 2
- Standaarddeviatie 𝑠𝑋 = √𝑠𝑋2
𝑥
- Standaardscores (z-scores) 𝑧𝑥 =
𝑠𝑋
o Gemiddelde altijd 0; standaarddeviatie altijd 1
• Relatie tussen twee variabelen
𝑠𝑜𝑚 𝑣𝑎𝑛 𝑥𝑖 𝑦1
- Covariantie 𝑠𝑋𝑌 = 𝑐𝑋𝑌 = 𝑁
𝑠𝑋𝑌
- Correlatie 𝑟𝑋𝑌 = 𝑠𝑋 ∙𝑠𝑌
• Matrixen
- Variantie-covariantiematrix
o Variantie op de diagonale elementen
o Covarianties op de buiten-diagonale elementen
- Correlatiematrix
o Enen op de diagonale elementen
o Correlaties op de buiten-diagonale elementen
Hoorcollege 2. Eigenschappen van test en items
• Wat is een psychologische test?
- Cronbach (1960): ‘a systematic procedure for comparing the behavior of two or more
people’
- Voorbeelden:
o Multiple choice vaardigheidstest
o Open-ended persoonlijkheidsvragenlijst
o Systematische gedragsobservatie
o Rorschach inktvlekkentest
- Drie cruciale eigenschappen:
o Gericht op gedragsmetig (observeerbaar)
o Systematisch (objectief)
o Vergelijken van verschillende personen (of van personen over tijd)
• Type test
- Test voor prestatieniveau (maximum) vs. gedragswijze (typical)
o Prestatieniveautests voor meten vaardigheden
o Gedragswijzetests voor meten van o.a. persoonlijkheidseigenschappen en attitudes
o Grote verschillen voor de aanpak bij de testontwikkeling
o Nauwelijks verschillen voor statistische analyse van testscores
- Twee type tests prestatieniveau:
o ‘Power’ en ‘speed’ tests
▪ Power tests meten vaardigheid zonder tijdsdruk → meer vaardige personen
maken meer vragen goed
▪ Speed tests meten prestaties onder zware tijdsdruk → vragen zijn van triviale
moeilijkheid; meer vaardige personen beantwoorden meer vragen
• Vb. Bourdon dot concentration test
,- Normgericht of criteriumgericht:
o Normgerichte tests vergelijken personen met de rest van de populatie
o Geode normgegevens over deze populatie van groot belang
o Criteriumgerichte tests vergelijken personen met een absolute standaard
o Testoordeel staat los van prestatieniveau in de populatie
▪ Vb. tentamen Testtheorie is criteriumgericht
• Wat hoort er bij een psychologische test?
- Testmateriaal
o Voorbeeld testmateriaal
o
- Testformulieren
o Voorbeeld (fictief) testformulier
o De stap antwoord naar score is de beoordeling
o Itemscores worden zo bepaald dat ze indicatief
zijn voor het te meten construct: hogere
itemscore → ‘hoger’ op de eigenschap
- Testhandleiding
1. Exacte testinstructie
2. Verwerkingsprocedure
3. Normtabellen
4. Bespreking van wetenschappelijke kwaliteiten
• Eigenschappen van de testscore
- Testscore is vaak optelsom van de itemscores
- Belangrijkste uitkomst van de test die gebruikt wordt
- Testhandleiding geeft instructies hoe de score geïnterpreteerd moet worden
- Bij normgerichte tests zullen normgegevens geraadpleegd moeten worden
o Vb. 30% van de jongengs 3 jaar hebben een score lager dan 3 (30e percentiel)
• Meetniveau testscore
- Testscore is een getal
- Interpretatie van dit geval hangt af van het meetniveau van de testscore:
o Nominaal (vb. persoonlijkheidstypes)
o Ordinaal (vb. korte Likert-schalen)
o Interval (vb. lange Likert-schalen)
▪ Testscores zijn optelsom van itemscores
▪ Itemscores duidelijk ordinaal
▪ Testscores daarmee formeel ook ordinaal
▪ Voor praktisch/statistisch gebruik doen we vaak alsof de testscore van
interval meetniveau is
▪ Alleen goed te verdedigen voor lange tests met een grote range aan scores
o Ratio (vb. Bourdon dot test)
, • Spreiding
- Spreiding als wenselijke eigenschap
o Testscores moeten verschillen tussen mensen blootleggen → dit kan alleen als
mensen verschillen in hun testscores, daarom zijn hoge mate van variatie in
testscore is wenselijk
o Omdat testscore is opgebouwd uit de itemscores:
▪ Hoge variantie op de itemscores ook wenselijk
▪ Hoge covariantie tussen de itemscores wenselijk
- Spreiding testscore
o Vb. testscore X is opgebouwd uit itemscores 𝑋1 en 𝑋2
o 𝑋 = 𝑋1 + 𝑋2
o Wat beïnvloedt de testscore-variantie 𝑠𝑋2
o Testscore-variantie omhoog als itemscore-variantie toeneemt
▪ Kwaliteitscheck items: voldoende variantie?
o Goede samenhang tussen items is dus ook belangrijk:
▪ Sommige mensen scoren hoog op vrijwel alle items
▪ Sommige mensen scoren laag op vrijwel alle items
▪ Daarmee dus meer spreiding op de testscore
• Multiple-choice items
- Vooronderzoek bij multiple-choice items
o MC items dichotoom gescoord: goed = 1; fout = 0
o p-waarde van een item geeft proportie correct aan
o p = gemiddelde itemscore
o q = 1 – p is de proportie incorrecte antwoorden op het item
o Idealiter p = q = 0.5, want dan maximale itemscore-variantie
- Vooronderzoek bij multiple-choice items (vervolg)
o Frequentie van gebruik van alternatieven geeft zicht op het functioneren van het
item
o Proportie personen die een specifiek fout alternatief kiest noemen we α-waarde
o 𝑞 = 𝑎1 + 𝑎2 + 𝑎3 + ⋯
o Omdat mensen die het antwoord niet weten kunnen gokken geldt:
▪ De p-waarde dient hoger te zijn dan iedere α-waarde
o Idealiter worden alle foute opties even vaak gekozen:
▪ 𝑎1 ≈ 𝑎2 ≈ 𝑎3
o Idealiter hoge itemscore variantie, wat we bereiken als:
▪ 𝑝≈𝑞
- Vooronderzoek bij polytome items
o Polytoom (tegenovergesteld aan
dichotoom): meer dan twee itemscores
die mogelijk zijn
o ‘Populariteit’ verwijst naar gemiddelde
itemscore
• Objectiviteit
- Vooronderzoek: objectiviteit van de test